Drafts

@cm3 の草稿置場 / 少々Wikiっぽく使っているので中身は適宜追記修正されます。

mecabでの処理を前提としたテキスト整形のTips

OCRで取ったテキストを整形している際に気づいた点を書いておく。

f:id:cm3ak:20151018052253p:plain

  • の前後はスペースを空けなくてもちゃんと区切られて認識される。
  • 英語の前後にスペースを空けても、スペース記号が挿入されたとは扱われないので、前後にはスペースを空けていい。
  • 文章中の無駄なスペースはスペース記号が挿入されたとは扱われないが、形態素解析の失敗を引き起こすので削除しなければならない。
  • 半角の記号は基本、名詞(サ変接続)と認識されてしまうので、全角に直さないといけない。試したのは以下の通り。(),。「」・
  • 半角の数字はそのまま名詞(数)と認識されるので問題はない。全角でも問題がないので統制する必要はない。

cabocha での処理との関連

CaoboCha: Yet Another Japanese Dependency Structure Analyzer-I1 オプションで mecab の出力フォーマットから始めることができるので、係り受け解析に渡したい場合に、

  • 事前にテキストの時点で整形
  • mecab の出力結果を整形

の2つの手が使える。もちろん、ノイズは積み重なるので大抵の場合前者が有効だけれども、ある名詞の次に助詞が来ていた場合にはその名詞を置換するとか、そういう処理が必要なこともある。