今日はLinked Dataの4原則でURI使う→HTTP URI使うってわざわざ強調しているのはDereferenceableにしようっていうデータのウェブとしての思想があるからだよって解説をIODD Osakaで講演したんだけど、TDWGでもどこでも、HTTP URIのエセ永続性を嫌がる人は居る。UUIDがいいとかね。つまりドメインの管理とか金銭的にも労力的にも大変だし、じゃあ全部のデータについてpurlみたいなサービス使えというのかpurl的なのを乱立させたらその永続性は信頼できるのかとか考えるとURLをIdentifierとして使うHTTP URIという発想は筋が悪いという話だ。あと、僕は「URI Context Database の提案」という研究会発表で、URIで指し示す事物がなんなのかということの曖昧性の問題とその解決策の1つを提案していたが、自分でもこれは分散的にURLとそのコンテクストを統合したURIの対応関係を管理できない限り片手落ちだというのも分かっていて、その後言いっぱなしで放置している(実装まではしたし、物理データベースを対象とした運用も行ったけれど、別に理論的な側面以上に実用的に新たな知見が得られるわけでもなく、学生が関わってよいタイプの問題ではないと思ったのも一因だ)。
URLという言葉は参照解決可能性を直接的に示唆しており、一方でHTTP URIはIdentifierとしての側面を強調しているわけだが、Identifierとして厳密には使えないじゃんってのが表題の指摘だ。
オープンならコピーつくりまくって、ドメイン同士の対応を書く、つまり dbpedia-mirror.org の canonical domain は dbpedia.org だよってことを void.ttl の語彙で書いておくとかそういうのはありなのかもしれない。(参考:Use canonical URLs - Webmaster Tools Help 直接は関係ないが canonical URLと言えば、SEOの文脈で良くつかわれる。)ちなみに、この canonical 関係と sameAs は混同してはいけないと指摘されて、それはそうだなと思った。完全な同一物と、同一であるという解釈は別物だということだ。
参考資料:
- Dereferencing HTTP URIs
- HTTPRange-14 - Wikipedia, the free encyclopedia
- Persistent uniform resource locator - Wikipedia, the free encyclopedia
- DOI System and Internet Identifier Specifications
- URIs, URLs, and URNs: Clarifications and Recommendations 1.0
- URL Standard URIではなくURLという名前が復活したのはべつにHTTP URIがどうのという文脈じゃない書き方がされている。他にもそういう文書見た気がするんだけどなぁ。
- Names and addresses と Names and addresses LinkedData本2.2で「Web文書のアドレスではなくて名前としてHTTP URIを利用することは違和感を感じる人は」と書かれて紹介されてた文献