辞書のフォーマット
- DICT: RFC 2229 - A Dictionary Server Protocolで定義されているシンプルなプロトコルだけれど、あまり有名ではない?
- EPWING: 代表的な辞書フォーマット。変換ツールも用意されているので、LOD を基本にして何か共通フォーマットを作るとしても、これらのツールを使って EPWING に変換できることは担保した方がいい。
- JIS X 4081: EPWINGのサブセット。ただし、JIS 自体がかなり閉鎖的でガラパゴスな仕様で、仕様のPDFさえ「買え」という態度で、オンラインではうまく見れなかったくらいなあので将来が無いと思う。一応コピーサイト的なところにあった→JIS X 4081:2002 日本語電子出版検索データ構造
- ONESWING: 富士通はEPWINGの後継としてONESWINGのスマホ用辞書を提供している。高速な全文検索をウリにしているが、本来は目的に応じてデータをバイナリ化したりいろいろしたらいいはずで、流通するデータフォーマットがクローズドで検索の速さに関わってるのはおかしい(この誹りは EPWING にも向けられる)
- EPUB: 電子書籍一般のフォーマットだが、説明部分がリッチ化するにあたって、html5 のような仕様に統一する方が効率が良く、その意味で EPUB にも利点がある。一方で辞書的な検索機能などについて何も担保していない仕様なのは注意。スピードの面で問題が出るだろう。
- Groonga - An open-source fulltext search engine and column store: 普通のデータベースの検索機能や検索エンジン構築用のデータストア等もその候補となる。Honyaku Starのような辞書も実際に公開されている。Dictionaries のところからリソースが見れる
- Wordnet は RDF (RDF/XML) で提供されている(後述)。
- Babelnet.org も RDF だった気がする。
JMdict Format
JMdict/EDICT Projectからダウンロードできるファイルは
規定 [きてい] /(n,adj-no,vs) stipulation/prescription/provision/regulation/rule/(P)/ 規定打席 [きていだせき] /(n) (baseb) regulation at batting/ 規定値 [きていち] /(n) control value/minimal required value/ 規程 [きてい] /(n) official regulations/inner rules/(P)/ 規那 [キナ] /(ateji) (n) (uk) cinchona (dut: kina)/
のように書かれている。
XML バージョンもあるらしく、そちらは JMdict DTDに従っているとのこと。上の例で()
で囲まれた用語の意味はそこに書かれている。また、拡張子 .jdx のファイルもついてきたが、そちらはバイナリのインデックスファイルらしい。詳細なフォーマットは不明*1
RDFシリアライゼーションをフォーマットとして用いる際の語彙
- Lemon Ontology の語彙 e.g. http://lemon-model.net/lemon#reference。LOD 版の Wordnet で使われている e.g. bank - WordNet - bank
- DBpedia オンロトジの一部 e.g. http://dbpedia.org/ontology/synonym。DBpedia で使われている。
フレームワーク
エンドポイントでは、いかに検索を素早くするかなどでインデックスの技術が生きてくる。意味保存に関しては、既存の実践に基づきつつ、RDFの中でうまくフレームワークを作っていきべきだと感じた。そこからそれぞれのアプリのためにインデキシングするプログラムが必要になって、汎用のアプリとなると、検索エンジン系。でも、辞書の場合は全文検索の必要性は薄いので、その部分をもっと light-weight に作りこめそう。
関連
- mindia(マインディア) 主観的辞典をつくるサービス。SNS的な要素が強い
- 言語処理学会第20回年次大会(NLP2014) プログラム B2 B6 ポスター あたりに辞書関連の発表がある。
*1:Frequently-Asked Questions | LIFE SCIENCE DICTIONARY PROJECTに生成に使うツールなどが紹介されている。参考に