.reboot

底辺エンジニアがDeepLearningを学びながら、何かを作るブログです

ニュースサイトからデータを取ってきてコーパスを成長させよう その3

ニュースサイトのスクレイピングの第2弾です。

今回は産経新聞のサイトからニュースを取得する事にして見ました。

f:id:limit6577:20180910072443j:plain

今回のポイントはページングですね。

「続きを読む」のタグのクラスを見付けてその配下のリンクタグから次ページを取得する様に再帰関数を用意しました。

ソース

新聞社毎のクラスを作るのか?

フォーマットが各社バラバラなので各社ごとのクラスを作るのに四苦八苦しています。 出来れば共通化したいのですが、まだ数社試してみないといけないですね。

次は

一旦、スクレイピングは終了して、次はコーパスを成長させる方のプログラムを作ってみようと思います。