Drafts

@cm3 の草稿置場 / 少々Wikiっぽく使っているので中身は適宜追記修正されます。

辞書のフォーマット

辞書のフォーマット

JMdict Format

JMdict/EDICT Projectからダウンロードできるファイルは

規定 [きてい] /(n,adj-no,vs) stipulation/prescription/provision/regulation/rule/(P)/
規定打席 [きていだせき] /(n) (baseb) regulation at batting/
規定値 [きていち] /(n) control value/minimal required value/
規程 [きてい] /(n) official regulations/inner rules/(P)/
規那 [キナ] /(ateji) (n) (uk) cinchona (dut: kina)/

のように書かれている。

XML バージョンもあるらしく、そちらは JMdict DTDに従っているとのこと。上の例で()で囲まれた用語の意味はそこに書かれている。また、拡張子 .jdx のファイルもついてきたが、そちらはバイナリのインデックスファイルらしい。詳細なフォーマットは不明*1

RDFリアライゼーションをフォーマットとして用いる際の語彙

フレームワーク

エンドポイントでは、いかに検索を素早くするかなどでインデックスの技術が生きてくる。意味保存に関しては、既存の実践に基づきつつ、RDFの中でうまくフレームワークを作っていきべきだと感じた。そこからそれぞれのアプリのためにインデキシングするプログラムが必要になって、汎用のアプリとなると、検索エンジン系。でも、辞書の場合は全文検索の必要性は薄いので、その部分をもっと light-weight に作りこめそう。

関連

*1:Frequently-Asked Questions | LIFE SCIENCE DICTIONARY PROJECTに生成に使うツールなどが紹介されている。参考に