Workshop on Digital Lexicography に参加して面白かったのだが、最後の質疑応答で、「Lex-0 は辞書を記述するのに向いていると受け取りましたが、一方でその名の通り Lexicography にフォーカスしているので、一般に less Lexicographic とみなされそうな辞書、たとえば Encyclopedic な辞書や専門用語に関する辞書などには向いていないのでしょうか?どのように扱えばよいでしょうか」という質問をToma Tasovac (DARIAH)さんにさせていただいて、それはそれで専用の記述体系を作るべきじゃないかという返答をいただいた。つまり Lex-0 はそういう目的にはあまり使えないかもしれない。
語の間の部分一致的な cognate の記述などはまさに TEI 向きだと感じたが、そもそも辞書的な知識構造に TEI を持ち込む必然性はそこまで高くはなく、Lemon - Lexicon Model for Ontologies とかもあって知識グラフ的な記述の方が向いている側面も多い。まだ今は可視化や検索のツールが整備されているわけでは無い、と言う意味でも積極的に TEI で辞書知識を書くモチベーションはあまり無いかもしれない。XMLベースなのだから XPath などXMLのレベルでできることがあるとはおっしゃっていたが、そういう標準化の恩恵を言うなら RDF には SPARQL がある。RDF の中で地理情報を扱うのに Well-known text representation of geometry を使ったりするように、部分的に TEI を使うという可能性は十分にあると思うので、私はそういう方向と、Lex-0 がもう少し成熟してからRDF からのデータ変換を通じてデータ資源として貢献するという方向で関わろうと考えた。
ところで、「Encyclopedic な辞書や専門用語に関する辞書」の役割について、もう少しちゃんと考えておこうと思う。今想定しているそういう辞書で重要になるのは、集団語や方言(広義の位相語)の名詞や固有名詞だ。これらを指すために外延が狭いという意味で「指示の強い名詞」という言葉をタイトルで造語した。固有名詞(Proper nouns)は固有表現(Named Entity)とするとより範囲が広がり、「副社長」のような役割やIDや時間などの数値表現も入ってくるが、ここでは基本的に固有名詞でいいだろう。固有名詞は言語的に特別扱いされることが多く、私も、クリプキらに似た記述説的立場を取る*1。
辞書でも指示の強い名詞は扱えるし、元のデータ形式はどうでもいい
大槻文彦の『言海』(1889-91)を嚆矢とする日本の近代的な国語辞典は、当初、固有名詞や「高尚なる」専門用語は基本的に採録しない、いわゆる普通語の辞書が続きます。
from 国語辞典は百科全書の夢をみるか? :来たるべき辞書のために のようにそもそもに固有名詞は一般の辞書に載せないという場合もあるが、人名や地名を中心とした固有名詞が辞書に掲載されていることは一般的である。一つの大きな役割は曖昧性のある語の案内である。伊勢のデジタル大辞泉の項目 でも旧国名と現在の市名とに振り分けている。伊勢 - ウィクショナリー日本語版ではさらに「難波の葦は伊勢の浜荻」ということわざをある種の用例として案内している。要は概念の同一性ではなく表記の同一性によってまとめているというところに辞書の大きな特徴があり、紙ベースの場合にはカテゴリ vs 五十音順といった並べ順の違いも生じる*2。固有名詞のリストを編集する時にただその編集の仕方によって辞書にも辞典にも見せられるというわけである。言い換えると、これは本質的にデータセットとしてのデータ構造のレベルというよりは、それを処理するインタフェースとそのインタフェースが扱う中間データの構造によって辞書にも辞典にもなりえ、RDFでもTEIでも元のデータは書くことができるだろう。
指示の強い名詞の用例記述
ウィクショナリーに言及したが、デジタルのそれらの良いところは典拠を詳細に示す余裕があるところだと思っている。上記の会の雑談の時にも話したが、ウィキペディアと異なり用例を集めてそこから辞書の説明を作る部分の創作性については独自研究に近いくらいの創作性が許容されており、用例を集めるプラットフォームとしての良さがある。それを上げるためにテンプレート:用例出典 - ウィクショナリー日本語版を作ったりもした(が誰も使ってくれない涙)。一般名詞について考えると、用例の良いところは小鯛はごちそうであり、かざぐるまはエモく、筵織のズボンは一張羅になるということが分かることである。固有名詞についても同様なことを期待する、つまり辞書に「夏目漱石」の用例を載せることの意義というのは言語学的ではなく社会学的になりえる。しかし、小鯛はごちそうであることが用例でわかるような効果はいつも期待できるわけではない。「その様子を目にした俳人で知られる高浜虚子が夏目漱石に小説を書くことを勧めたことで、処女作『吾輩は猫である』が誕生するに至ります」:この文章は文学史としての価値は非常に高いが、辞書の用例としての意義を認めることは難しい。「文豪・夏目漱石の妻、鏡子は、ソクラテスの妻に並ぶほどの悪妻だったと言われています」:こちらに至っては指示対象が彼に関連あるとはいえ彼自身ではないのでより一層辞書の用例としての意義を認めることは難しい気がする。一方で、詳しくは後述するが、これは Factoid とでも言うべきものであって、また RDFとも親和的だ。
固有名詞の用例に、小鯛はごちそうであるような意味の付加を認めるものにはどのようなものがあるか?「緑の中を走り抜けてく真っ赤なポルシェ」のような表現は、用例としての意義はありそうだが、これはこの文脈ではポルシェは多くのポルシェの任意の一つでよいなど固有性を幾分か喪失していることによると考えている*3。逆にいうと、一般の名詞よりは、意味を捉える際に外延の事実に負う部分が多くなる分、普通名詞に比べて文脈から読み取れることは少なくなる、つまり事前にポルシェがどんな車であるか知ってないとこの文は期待された効果を発さない。「現代のシド・ヴィシャスに手錠かけられるのはただあたしだけ」というのも用例として意味があるが、それはこここではシド・ヴィシャスと彼の恋人ナンシーに関する Factoid を暗黙に参照しつつも、明白に彼を提喩(シネクドキ)として用いることですでに固有性をかなり失っている。このように文脈によって固有名詞は固有性を剥奪されることがあり、それによって名詞の用例と同様の用例の意義が出るというだけなのかもしれない。さきほど提喩としたが、より正確にはantonomasia(代称)と呼ばれるらしく、https://www.seijo.ac.jp/pdf/falit/194/194-2.pdf がこの話におけるすばらしい参考文献(辞書?)になっている。
指示の強い名詞のうち固有名詞ではないものとして、「とおし」という民具のカテゴリーについて述べる時は、固有名詞とは違い「何が「とおし」という言葉で指されるか」「コロケーションとしてどんな語があるか cf. とおしで選別する」を用例から探ることができるという点で、一般の名詞と同様の用例の意義はあるが、後者は「篩の一種である」とだけ分かれば意味がなくなることもしばしばである。古い用例だと、それがその時代に存在してどういう書物でどう記述されているかということ自体は興味深く、そういう Factoid 的な意味はある。また、どれがとおしと呼ばれ、どれが呼ばれないかという前者を考えるならば、一般的な辞書と異なり「呼ばないもの」の記述が重要になってきそうなど、これもまた外延が果たす役割が大きくなる。こういう名詞の用例は、内包を言語的に補足するものではなく、内包の根拠を示す、もしくは社会的・歴史的な意味を補足するものになる。民具のカテゴリも調査も永遠に不十分であるように、こういうものは辞書の生成過程に相当するものを、適切にグロテスクに(整理されずに生々しく)見せるようにすることが用例の採集と記述において重要だと考えている。
あと、そうなってくると、用例ではなく既存の説明というのが意味を持ってくるようになる。このカードでは「とおし」を「大形のふるい。ぬかをふるうもの。」と書いている、このカードでは「臼で挽き割ったとうもろこし、そばなどの粉をおろすのに使用。」と書いている、といったような例を比較検討して語釈を書く。固有名詞についても「⚪︎⚪︎は」から始まる文を多数あつめる。これは Factoid に意義配置でも用いられる頻度概念を持ち込むためにも使える(後述の意義配置の話参照)。
- 固有名詞については antonomasia のように固有性を剥奪された文脈だけが用例として再録するに値する
- 専門用語の名詞については一般名詞と同様だが、内包の根拠を示す、もしくは社会的・歴史的な意味を補足するものになる
- 根拠を示すのが多数の既存の説明という世界
Factoid と用例記述
ここでの Factoid とは "Factoidモデルはその名の通り, Factoidを中心概念とするモデルである. Factoidとは, 一次史料中における人物への言及を意味し, それは出来事の文脈であったり, 何らかの社会的関係の文脈であったりしうる. それゆえ基本的には, そうした出来事や社会的関係を中心として, それに時間情報や場所情報, そして関係する人物についての情報を紐づけていくという記述法を採ることになる." (小川 et al. "歴史一次料の 知識構造化ためFactoid モデルの拡張")というものだが、これはプロソポグラフィの文脈なので「一次史料」「人物」に限定されているだけであって、必ずしもそれに縛られることはなく Named Entity 一般に言えることである*4。だから Factoid-based な固有名詞の辞書的記述というのはあってもいい。それは用例の記述になり、幅広い時代の用例が有効だということになるが、特に意義配置の順序が歴史的順序の場合(しばしば歴史主義と呼ばれる)にその観点は重要になる*5。ちなみに、RDFそれ自身は順序を表現するのが苦手(cf. rdf:List の複雑性)だが、順序に相当するプロパティを持たせるなどいくらでもやりようがあるので、そこはTEIが必須になる理由にまではならない。しかし、自然な辞書的記述にXML+XSLTは便利だろうから、RDFでの辞書がそれで可視化される未来がくるならばTEIに変換するのは良い手である。
*1:固有名の意味論 あんまり直接的に同じ議論をしているものが見つからなかったけど、内包と外延と固有名詞の話をしているのってこういうのとか?(この論文には賛同しないけど。AはAという事実ではなく、Aと呼ばれるものを意味する、ってのはクリプキのウィトゲンシュタインのパラドックスにおける懐疑的解決(真実は言明できないが、正当に言明できる)と同じで、結局記述説的立場で説明し切れるじゃんって思うし。)
*2:Wikipedia:ウィキペディアは辞書ではありません - Wikipedia 辞書と百科事典の違いの基本的な認識として。どっちもスタブだと似たような感じになるとか、まとめ方が違うとかという話。
*3:この例は https://www.jstage.jst.go.jp/article/atem/20/0/20_95/_pdf から取った
*4:Michele Pasin et al. "Factoid-based Prosopography and Computer Ontologies: towards an integrated approach" で"The somehow ironic flavor of the name factoid is intentional, and reflects a concern that historian often have towards the veracity of sources, since the action of taking materials out of context has to be done with care. "という注釈とともにノーマン・メイラーの造語であるファクトイドにインスパイアされていると書いている。
*5:辞書の意義配置の順序に関して、高増 名代「OED における意義配列 ―James Murray はなぜ論理的順序を採用したのか?―」で「頻度、意味的つながり、年代」の3つが紹介され、OEDが純粋に「年代」ではないことが解説されている。