.reboot

底辺エンジニアがDeepLearningを学びながら、何かを作るブログです

ニュースサイトからデータを取ってきてコーパスを成長させよう その4

先日、取ってきたニュースをわかち書きにするプログラムを作成してみました。

f:id:limit6577:20180910072443j:plain

使用したライブラリはMecabで20行未満の簡単なプログラムになります。

6行目のTagger取得の引数をなくせば、形態素解析してくれる。 が今回は、取得したニュースをそのまま、わかち書きにするプログラムを作ってみました。

出力結果はこんな感じです。

変換前

【台風21号】春日大社で灯籠が倒壊 唐招提寺でも倒木十数本 奈良 - 産経WEST 主張 産経抄  世界遺産春日大社奈良市)では、参道に並ぶ石燈籠(とうろう)4基が周辺の木が倒れるなどして倒壊。さらに、参道そばにある重要文化財・着到殿(ちゃくとうでん)の檜皮(ひわだ)屋根の一部が倒木によって破損した。  吉野山・金峯山(きんぶせん)寺(吉野町)では、国宝・蔵王(ざおう)堂の屋根で檜皮の一部が風でめくれ上がり、唐招提寺では境内で十数本の倒木が確認された。  十津川村では、7年前の紀伊半島豪雨による土砂崩れで川がせき止められてできた土砂ダムから水があふれ出し、村が住民に避難を呼びかけた。  また、奈良市の男性(70)が玄関のドアを開けた際に強風にあおられて転倒し、頭を打って搬送された。地元消防によると、軽傷という。このほか、大和郡山市香芝市三宅町田原本町でもけが人が出た。

変換後

【 台風 2 1 号 】 春日大社 で 灯籠 が 倒壊   唐招提寺 で も 倒木 十 数 本   奈 良 - 産経 WEST

主張

産経抄

  世界遺産春日大社奈良市 ) で は 、 参道 に 並ぶ 石燈籠 ( とう ろう ) 4 基 が 周辺 の 木 が 倒れる など する て 倒壊 。 さらに 、 参道 そば に ある 重要文化財 ・ 着る 到る 殿 ( 着到 でん ) の 檜皮 ( ひる わ だ ) 屋根 の 一部 が 倒木 によって 破損 する た 。

  吉野山 ・ 金峯山 ( きん ぶす ん ) 寺 ( 吉野町 ) で は 、 国宝 ・ 蔵王 ( ざおう ) 堂 の 屋根 で 檜皮 の 一部 が 風 で めくれる 上がる 、 唐招提寺 で は 境内 で 十 数 本 の 倒木 が 確認 する れる た 。

  十津川村 で は 、 7 年 前 の 紀伊半島 豪雨 による 土砂崩れ で 川 が せき止める られる て できる た 土砂ダム から 水 が あふれる 出す 、 村 が 住民 に 避難 を 呼びかける た 。

  また 、 奈良市 の 男性 ( 7 0 ) が 玄関 の ドア を 開ける た 際 に 強風 に あおる れる て 転倒 する 、 頭 を 打つ て 搬送 する れる た 。 地元 消防 に よる と 、 軽傷 と いう 。 この ほか 、 大和郡山市香芝市三宅町田原本町 で も けが人 が 出 た 。

誤字がありますが、原因はMecabでした。

初期化を

tagger = MeCab.Tagger("-Owakati")

とするとこんな感じになりました。

【 台風 2 1 号 】 春日大社 で 灯籠 が 倒壊   唐招提寺 で も 倒木 十 数 本   奈 良 - 産経 WEST

主張

産経抄

  世界遺産春日大社奈良市 ) で は 、 参道 に 並ぶ 石燈籠 ( とう ろう ) 4 基 が 周辺 の 木 が 倒れる など し て 倒壊 。 さらに 、 参道 そば に ある 重要文化財 ・ 着 到 殿 ( ちゃくとう でん ) の 檜皮 ( ひ わ だ ) 屋根 の 一部 が 倒木 によって 破損 し た 。

  吉野山 ・ 金峯山 ( きん ぶせ ん ) 寺 ( 吉野町 ) で は 、 国宝 ・ 蔵王 ( ざおう ) 堂 の 屋根 で 檜皮 の 一部 が 風 で めくれ 上がり 、 唐招提寺 で は 境内 で 十 数 本 の 倒木 が 確認 さ れ た 。

  十津川村 で は 、 7 年 前 の 紀伊半島 豪雨 による 土砂崩れ で 川 が せき止め られ て でき た 土砂ダム から 水 が あふれ 出し 、 村 が 住民 に 避難 を 呼びかけ た 。

  また 、 奈良市 の 男性 ( 7 0 ) が 玄関 の ドア を 開け た 際 に 強風 に あおら れ て 転倒 し 、 頭 を 打っ て 搬送 さ れ た 。 地元 消防 に よる と 、 軽傷 と いう 。 この ほか 、 大和郡山市香芝市三宅町田原本町 で も けが人 が 出 た 。

意味も理解せずに写経してはいけないですね。

ノイズの除去

やはり、先頭4行のノイズは取り除きたい。 あとは、ニュースサイト特有の()補助情報も自然言語処理ではノイズになってしまい正しく処理ができなさそうなので外しておきたい。