読者です 読者をやめる 読者になる 読者になる

Fascinated with Tofu

豆腐に魅せられて

家探しのための Suumo スクレイピング用スプレッドシート

このところ賃貸物件を探しているんですが、家探しって情報戦です。 いろいろ情報がインターネットに落ちてはいるものの、なかなか人手で一つにまとめて比較検討するのは大変です。そんなときこそウェブスクレイピングの出番です。(いろいろ写真みて表作って、というのも充分楽しい作業ではあるんですけどね。)

物件の URL を入れると基本情報+2年住んだ場合のトータルコスト概算を出してくれる Google スプレッドシートを作成しました。(サンプルあり)

スクレイピングについては以前にも書いたので参考までに以下もどうぞ

www.fascinatedwithtofu.com

www.fascinatedwithtofu.com

www.fascinatedwithtofu.com

参考

ほとんど前者を参考にさせていただきました。後者はクローラとセットで検索するところから指定されており、すごいなぁと。
blog.sushi.money
hatakazu.hatenablog.com IMPORTXML - Docs editors Help
REGEXREPLACE - ドキュメント エディタ ヘルプ

前提

A3にURLを入れるとします。単位は 万円とします。
更新料を1ヶ月分と仮定しています。
トータルコスト等の計算式はご自由に変更ください。

以下の Xpath は上記のウェブスクレイピング記事と同様に Chrome で表示した際の Developer Tools から右クリックコピーにて採取しています。ただし Google スプレッドシート側の仕様で、Xpath 自体を二重引用符で囲む必要がありますのでここだけ書き直しが必要です。

下のリストは、使用できるすべての関数をカテゴリ別に示しています。関数を使用する際は、セル参照や列参照でないアルファベット文字で構成される関数要素はすべて、二重引用符で囲むようにしてください。

デメリット

物件の掲載期間が終わったら、スクレイピングしてきた情報ごと消えます。あとで見返したりしたい場合は、値のみコピー/バックアップする運用をおすすめします。

家賃

=REGEXREPLACE(IMPORTXML(A3,"//*[@id='contents']/div[1]/div[2]/div[1]/table/tbody/tr/td[1]/div/div[1]/span"), "万円", "")

管理費

=REGEXREPLACE(REGEXREPLACE(IMPORTXML(A3, "//*[@id='contents']/div[1]/div[2]/div[1]/table/tbody/tr/td[1]/div/div[2]/span"), "管理費・共益費 ", ""), "円", "")/10000

敷金

=REGEXREPLACE(IMPORTXML(A3,"//*[@id='contents']/div[1]/div[2]/div[1]/table/tbody/tr/td[2]/div/div[1]/span[2]"), "万円", "")

礼金

=REGEXREPLACE(IMPORTXML(A3,"//*[@id='contents']/div[1]/div[2]/div[1]/table/tbody/tr/td[2]/div/div[2]/span[2]"), "万円", "")

築年数

=IMPORTXML(A3, "//*[@id='contents']/div[1]/div[2]/div[1]/table/tbody/tr/td[4]/div/div[2]")

面積

=REGEXREPLACE(IMPORTXML(A3, "//*[@id='contents']/div[1]/div[2]/div[1]/table/tbody/tr/td[3]/div/div[2]/text()"), "m", "")

仲介手数料

=家賃/2+1.5
どこかのサイトで読んだざっくり式

更新料

1ヶ月分の家賃想定

鍵交換等

すみませんスクレイピングできなかったので、目 grep してください。
保険, クリーニング代 etc…

トータルコスト(2年)

=(家賃+管理費)*24+敷金+礼金+仲介手数料(+鍵交換等)

初期費用

=(家賃+管理費)*2+敷金+礼金+仲介手数料(+鍵交換等)
トータルコストも気になりますが、初期費用がどれくらいなのかも知りたいですよね。 だいたい家賃の 4.5 ヶ月分程度になると言われています。(ソース不明)

サンプル

注意)4行目だけ編集可能になっています。ご自分のスプレッドシートでいろいろ試してみてください。 f:id:rrringress:20170219215309p:plain

https://docs.google.com/spreadsheets/d/1oTzpa5ytV0SkzHoIiiiiLgiF9p9QeD-y7MBlZdRV93w/edit#gid=0

こんなのなくても元のDBにアクセスできたら、早いんだらうなぁ。

広告を非表示にする