.reboot

底辺エンジニアがDeepLearningを学びながら、何かを作るブログです

ニュースサイトからデータを取ってきてコーパスを成長させよう その1

スクレイピングに挑戦しようと思います。

目的は、Word2vecのコーパスを成長です。

f:id:limit6577:20180910072443j:plain まずは、いつも通りに簡単なTOYプログラムの作成から。

必要なライブラリのインストール

スクレイピングのライブラリは色々とある様ですが、ひとまず目についた BeautifulSoupをインストールしておきます。

pip install beautifulsoup4

Macは以上で終了。

始めの簡単なプログラム

本当に一番簡単なプログラムです。

日経のトップページからタイトルを取ってきます。

gist6473cb0913d8afccb9410ac4c85820d7

f:id:limit6577:20180901133423p:plain

こんな感じになります。

これを元に本文をとってきてMeCab形態素解析すれば、今の時代に沿ったコーパスが作れそうです 。