現在、特定リソースからのニュースの収集とタグ付けまでは自動化されているシステムをセンター内部で保有している(著作権的な問題などでもちろん一般公開は不可能)。しかし、そのニュースからの研究者のキュレート結果を公開したりみたいなことはできてもよいし、ニュースタイトルとそのマッピングくらいまでは事実データということで可能なのではないかと検討が進んでいる。そこで手始めに、自分が興味を持ったところから手作業でやって、何が必要になってくるかを考えてみたい。
まずはマッピングするならば、地名と場所の対応付け(いわゆるgeocoding)が必要である。既存研究でも文脈を用いた geocoding の研究はあるが、ニュースにおける geocoding に特化して考えてみたい(それも既存研究があるのは知っているが少し 0 ベースで)。
ハンガリーの赤い有毒汚泥流出事故、工場関係者ら全員に無罪判決 写真9枚 国際ニュース:AFPBB News まず、このニュースが気になった。
まず、最近感じている表構造の限界を感じた。地名やタグは複数入れたいし、地名はそれに伴う geonames の URI を入れたい。
関連ニュース 廃液貯水池決壊事故、赤い廃液に襲われた村 ハンガリー 写真1枚 国際ニュース:AFPBB News に出てくる「コロンタール(Kolontar)」という地名は、3つの候補があり、これが正しい。これも Kolontár Alja ということで、後置されているのが Ajka とも綴りが近く、気になったが、場所が全然違う↓
僕はあまりここらへんの地理詳しくないので、バラトン湖との関係で「遠っ」と思っただけだけど。
肝心の Ajka はここ 。
近くには化学汚染された水っぽいものも見える。
.kml でダウンロードしたところ範囲は方形でのみ指定されていて、
<LookAt> <longitude>17.55892</longitude> <latitude>47.10196</latitude> <range>3798.9750000000004</range> </LookAt>
前述の Kolontar を包含していないように見える。Kolontár - Wikipedia, the free encyclopediaを見ても包含していない。上位集合として確実なものに、ヴェスプレーム県があり、先ほどの Ajka市 の geonames 情報からも辿れるが、 Ajkai Járásという区画が間の単位としてある。クラスは second-order administrative division
となっている。ヴェスプレーム県 in geonamesは first-order administrative division
となっている。だから2つの市区町村を包含する最小被覆は Ajkai Járás になるということが頑張って調べればわかるのだが、そもそもに、最小被覆を入れるのではなく、複数の関係地名を突っ込めばよいのである。というわけで、明示的には Ajka に関して、
{ "Ajka":"http://sws.geonames.org/3056357/", "Kolontar":"http://sws.geonames.org/3049530/" }
というデータを突っ込んでみている。URI は RDF から読み取った。http://www.geonames.org/maps/google_47.102_17.559.html
は末尾に .html
がついているから ID としては変だな(Cool じゃない)という知識で正式っぽい URI にたどり着いた。
ところで、やっぱ表から離れたエディタを作りたいなぁと思う。まあ、表のなかにオブジェクトのリストを配置できればよいのだけれど。
disambiguation 方面の知見としては、
- geonames の検索は綴りの曖昧さを考慮してくれるが、綴りが正確である自信があれば、完全マッチで取ることで候補を絞り込める。
- 大きい行政区画とその首府などが同じ名前を冠していることが多いが、そのどちらの話であるかを推定するには、並列されている地名や包含している地名などの関係から推測する必要がある。
参考:
- Ajkai járás – Wikipédia この項目は英語がないので理解に苦労した
- ハンガリーアルミニウム赤泥流出事故 - Wikipedia 事件自体はなかなか完成度の高い Wikipedia 記事がある。
- ボパール化学工場事故 - Wikipedia 直接は関係ないけど、似た事案の一つ。胸糞悪い事案だな。