Drafts

@cm3 の草稿置場 / 少々Wikiっぽく使っているので中身は適宜追記修正されます。

The Crosswalk

原文

Keith Harman: Learning Objects: Standards, Metadata, Repositories, and LCMS の p.27 より Crosswalk の説明。

Exactly how are repositories federated? One model in use is a metadata crosswalk, whereby organizations have found a way to bridge one standard to another through a schema mapping process. A crosswalk is the semantic and/or technical mapping of one metadata framework to another. In computer science, this process is referred to as 'schema matching' whereby an element is algorithmically transformed into another, while preserving the intended meaning of the original (Doeer, 2004).

Essentially, a crosswalk forms a bridge between the source and the target metadata standard. One form of a crosswalk uses an encoding system, the Metadata Encoding and Transmission Standard (METS) that uses a structural map <structMap> when crossing from one standard to another. METS finds its roots in library digitizing projects, and has a specific XML schema defined by the METS sponsors (Godby, Young, & Childress, 2004). One caveat should be noted: most round-trip mapping is not feasible when the map is from the complex to the simple, since not enough information is retained to allow a mapping back. Adding the 'semantics' to the crosswalk is still in the early stages, with mixed results.

ところで実際のところリポジトリはどのように連携しているのだろうか? 使われているモデルの一つにメタデータクロスウォークというのがある。各組織は、これを用いてスキーママッピングを行うことによって、異なる標準間をうまく橋渡ししてきた。コンピュータ科学においては、このマッピングプロセスは「スキーママッチング」と呼ばれる。そこでは、もともと意図された意味を保ちつつ、各要素がアルゴリズムによって他の要素に変換される(Doeer, 2004).

クロスウォークの主な役割は、元のメタデータ標準からターゲットとなるメタデータ標準への橋渡しをすることだ。ある形のクロスウォークは the Metadata Encoding and Transmission Standard (METS) と呼ばれるエンコーディングシステムを用いる。これは、変換時に構造のある対応 <structMap> を用いる。METS は図書館のデジタル化プロジェクトに端を発し、METS の支持者によって策定されたある XML スキーマを持つ (Godby, Young, & Childress, 2004). ここで一点だけ注意: 複雑なメタデータから単純なメタデータへのマッピングが与えられたとき、その逆を行うのは一般的に難しい。それは、逆を行うのに十分な情報が保持されていないからだ。「セマンティクス」をクロスウォークに与えるという試みはまだ始まったばかりで、結果もまちまちである。

簡単な解説

図書館の文脈におけるオントロジーマッピングツールに crosswalk というのがありますという話。(ここでは「スキーママッチング」という言葉が出てくるけれど、セマンティックウェブ系のカンファレンスでは「オントロジーマッピング」の方が頻出していた気がするが、違いはあるんだろうか?)よし使ってみよう!と思うと→schematrans うごいてないよ…。

A Repository of Metadata Crosswalks というページに詳しい説明ならある。METS ならこの説明が詳しい→METS: An Overview & Tutorial: Metadata Encoding and Transmission Standard (METS) OfficialWeb Site

日本だと、MetaBridgeが似たような目的意識を持っている。人手を活用する方向性だけれども。

あと、先日お会いしたMさんに聞いた、台湾の機関間メタデータ連携は、Academia Sinicaがハブになって、各組織に出向して1年くらいかけてしっかりとしたドキュメントと共に連携可能なメタデータを作成すると言っていた。一つの理想形だと思う。

自動化した crosswalk は少し古くて、こういう人手のプロセスに着目した動きの方が最近なのは、crosswalk でできることの限定性に問題意識があったのではないかと想像している。でも、最近、エンティティのマッチングならば、OpenRefineみたいなのが機能も使用例も充実してきて、データのマッチングを先にやって、その情報を活用して関係のマッチングをアルゴリズミックにやるという揺り戻しが来るかもしれない。スキーマの急激な増加からもニーズが高まっている。もし既にそういう研究あれば教えてください。なければ誰かお願い。誰もいなければ僕がやります←サーベイしろよ