music & knowledge sharing
LODって、何それ…?
セマンティック・ウェブとリンクするデータ
多層に渡る技術群としてのセマンティック・ウェブ
URI による識別とRDF のデータモデル、意味論が基本
全体像は複雑すぎて簡単には使えない → 基本層だけでも現実的に利用できる
リンクするデータ
WWWが文書のハイパーリンクで発展したように、データ共有もリンクで発展する
URIを識別だけでなくリンク(参照解決可能)にも用いる
Linked Dataの4原則 (バーナーズ=リー)
リンクする公開データ
Linking Open Data(LOD)プロジェクト
データのサイロからリンクする公開データへ
有益な公開データもそのデータセットで閉じている場合が多い
URIとRDFを用いてリンクするデータになれば、ネットワーク効果が
W3CのLODプロジェクト が2007年に発足
データ共有のアプローチ
項目名:スキーマの共有
著者と作者とcreator? 横断検索やデータベース統合のために項目名を標準化
比較的早期から共有の試み
データ表現法としてはS-P-OのトリプルによるRDFを提唱
データ値:統制語彙の利用
クラス階層の体系や分類スキーム、件名標目
組織・ドメイン内では整備 → ウェブ化
対象:UNAとデータ名
ウェブではUNA が成り立たない
同じものについて異なる名前が使われる
マッシュアップ:何と何が同じかを明確にする必要がある
スキーマの共有
記述項目の共有
語彙とモデルの調整
Schema Alignment:同等な関連を表すプロパティを探す
スキーマレジストリ:語彙と記述方法を登録する
異なるデータモデル間の変換:例えばSPARQLのCONSTRUCTを利用
語彙のマッピングとレジストリ
プロパティの関連付け
同等なプロパティ(owl:equivalentProperty
)
部分集合となるプロパティ(rdfs:subPropertyOf
)
著者、作者などの異なる項目名も、ex:著者 rdfs:subPropertyOf dc:creator.
、eg:作者 rdfs:subPropertyOf dc:creator.
のような記述があれば、推論によって横断検索ができる。
スキーマ・レジストリ
データ値と統制語彙
共通のデータ値を介した連繋
分類と主題
分類、主題と統制語彙
クラスの体系
WikipediaとWordNetのセマンティックウェブ化
各国図書館の主題件名のシソーラス化・ウェブ化
タグの利用とFolksonomy
シソーラスのセマンティック・ウェブ化
シソーラス間の関連を記述するskos:closeMatch
、skos:exactMatch
データの名前の共有
同じものを指す名前
UNAが成り立たないウェブでは同じものの識別が重要
アクセス可能なURIによる識別(リンクするデータの原則)
URIでグローバルに名前付けする
アクセス(参照解決)可能なhttp:
のURIを用いる
さらに他のデータにリンクする
同じ対象を指すデータの集約
同じ対象を指すならowl:sameAs
で関連付ける
sameAsは非常に強い関係なので、濫用に注意する
参照による共有
件名標目のウェブ化
主題件名(統制語彙)
国立国会図書館のWeb NDLSH と米議会図書館のLCSH
件名(主題表現の統制キーワード)をRDF化。上位、下位、関連件名にSKOSを用いてリンク
名称典拠
典拠ファイル
同姓同名を生没年などを使って識別
同一人物の複数の名前(別名、ペンネームなど)を集約
統一タイトル
典拠のウェブ化
LODのハブ DBpedia
DBpedia
英語版Wikipediaの情報ボックスを中心に構造化可能なデータをRDFとして抽出
2011年1月版DBpedia 3.6 で350万項目以上(英語版Wikipediaは2011年2月で約356万項目)
LODにおける統制語彙 兼 固有名典拠としてリンクのハブとなっている
音楽データ名の共有 MusicBrainz
音楽に関する固有名の典拠
MusicBrainzのRDF化
…で、それって美味しいの?
何がつながっているのか
シソーラス同士のつながりが中心
DBpedia、YAGO、UMBEL、Freebase、Geonames…LCSH、NDLSH
何がつながって欲しいのか
文書のウェブでは
Wikipediaで完結していても面白くない
いろんなコンテンツがリンクして思わぬ発見がある
データのウェブと文書のウェブの連動
多様なコンテンツがLODを介してつながらないか
BBCとMusicBrainz
BBCの記事や情報ページをMBIDで識別してリンク
HTMLからRDF、LODハブへ
BBCのRDFファイルからはDBpediaへリンク
DBpediaのような広い範囲をカバーするLODハブと結びつけることで、音楽情報だけでなく、他の情報ともリンクできる
社会グラフとLOD
FacebookとOpen Graph protocol
「いいね!」ボタンと連動
「いいね!」ボタンをクリックすると、OGPグラフのデータがFacebookに送信される
(FacebookのOpen Graph protocolページより引用)
RDFaからLODへ
多くのRDFaはLODになっていない
現状は多くのRDFa提供サイトがリテラル目的語あるいは自社内リンク
property
属性もよいが、rel
属性を使ってリンクさせる
LODとしてのWikipedia
データの共有と品質
データの品質の考え方
LODでリンクしているデータの品質は一様ではない
語彙使用の正確さやリンク関係の適切さ、データ値の一貫性
適切なモデル:たとえばFacebook/OGPのRDFはURIも全て文字列として扱うが…
データの更新(メンテナンス)
問題あり? それがウェブ?
低品質のデータは、併合したり推論を行なおうとすると破綻する
しかし、そもそもウェブは不完全。つながることにまず意義があるのはデータのウェブでも同じ…?
文脈抜きでの「意味」表現はもともとできない。文脈を含めたデータ(名前付きグラフ)…
データの品質管理
参照先
参照したリソース
Linked Data - Design Issues , by Tim Berners-Lee , 2006-07-27
<http://www.w3.org/DesignIssues/LinkedData.html>
Linking Open Data - W3C SWEO Community Project , ESW Wiki
<http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData>
FOAF Vocabulary Specification , by Dan Brickley, Libby Miller
<http://xmlns.com/foaf/spec/>
DCMI Metadata Terms , DCMI Recommendation
<http://dublincore.org/documents/dcmi-terms/>
SKOS Simple Knowledge Organization System Reference , by Alistair Miles and Sean Bechhofer (eds.) , 2009-08-18 , W3C Recommendation
<http://www.w3.org/TR/skos-reference/>
Open Metadata Registry
<http://metadataregistry.org/>
NDLSH 国立国会図書館件名標目表
<http://id.ndl.go.jp/auth/ndlsh/>
Authorities & Vocabularies (Library of Congress)
<http://id.loc.gov/authorities/>
The Virtual International Authority File
<http://viaf.org>
DBpedia
<http://dbpedia.org/>
New York Times - Linked Open Data
<http://data.nytimes.com/>
LinkedBrainz - A project to provide MusicBrainz NGS as Linked Data
<http://linkedbrainz.c4dmpresents.org/>
Music Ontology Specification , by Yves Raimond, Frederick Giasson (eds.) , 2010-11-28 , Revision: 2.1
<http://musicontology.com/>
RDFa in XHTML: Syntax and Processing , by Mark Birbeck et al.(eds) , 2008-10-14 , W3C Recommendation
<http://www.w3.org/TR/rdfa-syntax/>
HTML Microdata , by Ian Hickson (ed.) , 2010-03-07 , W3C Working Draft
<http://www.w3.org/TR/microdata/>
Introducing Rich Snippets , 2009-05-12 , Official Google Webmaster Central Blog
<http://googlewebmastercentral.blogspot.com/2009/05/introducing-rich-snippets.html>
Open Graph Protocol , 2010-04-20
<http://opengraphprotocol.org/>
Semantic MediaWiki
<http://semantic-mediawiki.org/wiki/Semantic_MediaWiki>
MediaWikiのRDFa拡張
<http://www.mediawiki.org/wiki/Extension:RDFa>
Semantic Wikipedia
<http://en.wikipedia.org/wiki/Wikipedia:Semantic_Wikipedia>
Google Refine
<http://code.google.com/p/google-refine/>
SPARQL 1.1 Update , by Simon Schenk, et al. (eds.) , 2010-10-14 , W3C Working Draft
<http://www.w3.org/TR/sparql11-update/>
By KANZAKI, Masahide (see FOAF or home ), ©2011 .
Status: 2011-03-01 , JEITA知識情報処理技術シンポジウム の講演資料; 2011-03-01公開 .
Original URI is http://www.kanzaki.com/works/2011/pub/0301jeita.html