Web of Data
の実装である Linked Data
における「対象となる事物をURIで指す」ということは、たびたび反発を受けてきた。代表的なのは、リンク切れを起こすでしょ、という反発。「京都府」と記しておけばいいのに、「http://lod.ac/id/305106」と記してしまうと、その URI が管理されなくなると、多大な情報が失われることになる。相当安定しているデータプロバイダーじゃないとリンクする気が起こらない。
TDWG の時は、URI で指しつつ、別のID体系や名前だって書けばいいじゃん、共存するんだよ、って主張した。ここは聴衆もかなり肯いてくれて満足したのを覚えている。
しかし、普通に考えると、自分のデータのURI→(参照)→ 他のデータのURI →(参照)→ 自分のデータにあるURI以外のID となるので、他のデータのIDに指してもらわないといけなくなるという非現実性がある。
他のデータのURIを主語にした情報を自分のとこで提供してはいけないという法は無いので、提供してしまうというのが一番スマートな解決策だと思っているのだが、あまりそういう例を聞かない。
考え得る問題点は、相手の持っている情報と衝突しかねないとかだと思うが、我々はデータをURIで判別して繋げているわけではない。その先の情報を見て繋げているのだから、情報が衝突するような変更が行われたら、それはそのリンクが無効になっている証拠なので、むしろ明示的に衝突させないといけない。
どちらかというと、自分の表現したいことを表現するのに、相手に依存する部分が入ってくるのが気持ち悪いという感情的な問題がおおきいのではないか。
データの統合に使った属性は書きつつ、外部のURIを用いる、つまり「外部のデータの一歩先まで書くというプラクティス」について周りに意見を聞いてみたい。