Drafts

@cm3 の草稿置場 / 少々Wikiっぽく使っているので中身は適宜追記修正されます。

mecabでの処理を前提としたテキスト整形のTips

OCRで取ったテキストを整形している際に気づいた点を書いておく。

f:id:cm3ak:20151018052253p:plain

（ ）の前後はスペースを空けなくてもちゃんと区切られて認識される。
英語の前後にスペースを空けても、スペース記号が挿入されたとは扱われないので、前後にはスペースを空けていい。
文章中の無駄なスペースはスペース記号が挿入されたとは扱われないが、形態素解析の失敗を引き起こすので削除しなければならない。
半角の記号は基本、名詞（サ変接続）と認識されてしまうので、全角に直さないといけない。試したのは以下の通り。(),｡｢｣･
半角の数字はそのまま名詞（数）と認識されるので問題はない。全角でも問題がないので統制する必要はない。

cabocha での処理との関連

CaoboCha: Yet Another Japanese Dependency Structure Analyzer は -I1 オプションで mecab の出力フォーマットから始めることができるので、係り受け解析に渡したい場合に、

事前にテキストの時点で整形
mecab の出力結果を整形

の２つの手が使える。もちろん、ノイズは積み重なるので大抵の場合前者が有効だけれども、ある名詞の次に助詞が来ていた場合にはその名詞を置換するとか、そういう処理が必要なこともある。