.reboot

底辺エンジニアがDeepLearningを学びながら、何かを作るブログです

ニュースサイトからデータを取ってきてコーパスを成長させよう その2

先日作ったプログラムを更に成長させてみようと思います。

日経のページのトップページから全ての内部リンクに飛んで、その先の文章を抽出する処理です。

f:id:limit6577:20180910072443j:plain

日経の記事から文字列を抽出するプログラム

結構面倒なのが、本文とそれ以外の切り分けができてないです。

なので、出力結果が以下の様になってしまっています。

パナソニック「変な家電」 茶筒スピーカー・おにぎりロボ  :日本経済新聞 記事保存

有料会員の方のみご利用になれます。保存した記事はスマホタブレットでもご覧いただけます。

> 新規会員登録

> ログイン

Evernote保存

ご利用には会員登録が必要です

> 新規会員登録

> ログイン

 パナソニックが2018年秋以降、風変わりな家電を相次ぎ発売する。フタを取ると音楽が流れる茶筒型スピーカーやおにぎり製造ロボットなどを開発中だ。同社は今年、創業100周年を迎えた。スピード感や斬新なアイデアなど大企業に欠けがちな要素を取り戻す試みでもある。

 東京・浜松町。滋賀県にあるパナソニックの家電の本拠地から遠く離れ、次世代の家電を開発するプロジェクト「ゲームチェンジャーカタパルト(GCC)」…

秋割実施中!日経Wプランが12月末までお得!

無料・有料プランを選択

会員の方はこちら

金融ニッポン「破壊と創造」トップが語る

【秋割】Wプランが年末までお得に使える

訂正・おわび

赤字にしたノイズを上手に取り除くにはどうしたら良いのかは別途検討です。