リンクするデータ、できること、目指すこと
リンクするデータとは
ネットワーク時代のデータ
- 1つの組織内のデータベース
- 比較的少数のコンピュータ
- 管理可能なサイズと質のデータ、整ったスキーマ
- 組織、領域を超えたデータ
- 多数のコンピュータ、あるいはクラウド
- 膨大で質も不明なデータの海、それぞれに異なるスキーマ
データのウェブ
- 標準化、ガイドライン…
- みんなで同じ語彙、スキーマ? → 無理
- 共通項を用意してマッピング → ある程度は機能するが情報が失われる
- 約束事が多いと破綻しやすい
- 緩やかなつながり:データのウェブ
- WWWは簡単で緩やかな文書のリンクで発展
- 記述の約束(HTML)は単純で非力。しかしだからこそ誰もが利用できた(「よいHTML」)
- データも簡単な約束でリンクすれば、さまざまな形での利用が可能
情報サイロ
- 情報サイロ、あるいは壁で遮られる社会ネット
- The problem with today's social networks is that they are often closed to the outside web (illustration by David Simonds, The Economist, 2008)
- ウェブの情報の価値=f(内容, リンク)。分断された「情報サイロ」では価値が生かされない
リンクするデータ
- バーナーズ=リーのLinked Data
- WWWが文書のハイパーリンクで発展したように、データ共有もリンクで発展する
- URIを識別だけでなくリンク(参照解決可能)にも用いる
- Linked Dataの4原則を提案
- リンクするデータの4原則
- ものごとをURIで名前付けする
- これらの名前を調べて見つける(参照解決する)ことができるように、
http:
スキームのURIを使う - 名前付けしたURIがたどられたら、標準技術(RDFなど)を用いて有用な情報を返す
- ほかのURIへのリンクを加えて、より多くのものごとを見出せるようにする
Linking Open Data
- オープンデータとリンクするデータ
- 公開データをリンクするLinking Open Data(LOD)プロジェクトが2007年に発足
リンクのハブ:典拠情報のRDF化
ウェブ上の名前の集約とLOD
- LODのハブとSameAs
- 多くのデータセットが、異なる名前(URI)で同じものを表現
owl:sameAs
などでDBpediaにリンクすることで、LODのハブとなっている
- 名前の集約
- できれば同じ名前を使うほうが効率が良い
- 各国の国立図書館などが培ってきた典拠ファイルは、名前集約の重要なハブになり得る
件名標目(Web NDLSH)
- 件名標目のモデル
- 国立国会図書館件名標目(Subject Heading)をSKOS語彙を用いてRDF化
- 作品の主題(キーワード)を表現するための統制語彙
- 上位語(broader)、下位語(narrower)、関連語(related)などを用いたシソーラス
- 日本語もIRIとして識別子に用いる:http://id.ndl.go.jp/auth/ndlsh/愛
- Web NDLSHとLOD
- 異なるシソーラスの概念を関連付けるSKOSマッピングプロパティ(
skos:exactMatch
、skos:closeMatch
など)でLCSHなどとリンク
- 異なるシソーラスの概念を関連付けるSKOSマッピングプロパティ(
名称典拠
- 名称典拠のデータ
- Web NDLSHに人名、団体名、地名、統一タイトルなどの典拠を追加
- 別名(ペンネーム、本名など)の集約
- 同姓同名の別人物の識別
- 同一人物の著作、異なる表記の同一作品などを検索可能
- 名称典拠のモデル
- 典拠リソース:名称(ラベル)を中心にすえたリソース。典拠ごとに作成日や改訂履歴などのメタデータを持つ
- 実体リソース:人物実体として、生没年などのプロパティを持つ
典拠のグラフ
典拠のグラフ:実体リソース
-
- 生没年、所属など、実体に属するプロパティ
典拠のグラフ:ラベル
-
- 優先ラベル(標目形)と代替ラベル(参照形)
- ラベルをリソースとして扱い、読みも加える
典拠のグラフ:別名
-
- 別名は独立した典拠としてそれぞれのデータを持つ
典拠のグラフ:外部へのリンク
-
- VIAF (20カ国近くの国立、国際図書館の典拠が連動)に
skos:exactMatch
でリンク
- VIAF (20カ国近くの国立、国際図書館の典拠が連動)に
リンクの枝:現実の統計データ
災害とデータ提供
- PDFデータからテキストデータへ
- 文部科学省は各都道府県等からの報告に基づき全国の環境放射能水準調査をPDFとして作成
- atmc.jp(全国の放射能濃度一覧)がデータをテキスト化
- テキストデータのRDF化
- テキストは解釈方法の情報が必要。RDFを交換フォーマットに用いれば
- 統計データをRDFで表現して自己記述化し、さらに他のデータとリンクできるようにしてみる
統計データを表現する語彙
- Statistical Core Vocabulary
- 名前空間:http://purl.org/NET/scovo#
- データ(
scv:Item
)の値を軸(scv:dimension
)との組合せで表現 - 軸の次元を
scv:Dimension
のサブクラスとして定義し、各軸をそのインスタンスとして表現 - 個々のデータにURIを与えて参照(リンク)可能にする
#データ ex:o20110607-08-tokyo a scv:Item; rdf:value 0.060; scv:dimension
ex:Tokyo
; scv:dimensionex:t20110607T08PT1H
. #場所軸 ex:ObsPlace rdfs:subClassOf scv:Dimension.ex:Tokyo
a ex:ObsPlace. #時間軸 ex:ObsTime rdfs:subClassOf scv:Dimension.ex:t20110607T08PT1H
a ex:ObsTime.
- SDMX-RDF
放射能水準統計のRDFモデル
- SCVをベースに、シンプルに、リンクするデータとして
scv:dimension
の代わりにEvent Ontologyのev:place
、ev:time
を利用(プロパティ値の型を調べなくてもデータの意味がわかる)- 場所軸にGeoNamesを用いて、外部のデータとリンク可能にする
- 時間軸はTimeline Ontologyを用いて表現
#データ <http://www.kanzaki.com/works/2011/stat/ra/20110607/p13/t08> rdf:value "0.060"^^ms:microsv ;
ev:place
<http://sws.geonames.org/1852083/> ;ev:time
<http://www.kanzaki.com/works/2011/stat/dim/d/20110607T08PT1H>; scv:dataset <http://www.kanzaki.com/works/2011/stat/ra/set/moe> . #場所軸 <http://sws.geonames.org/1852083/
> vcard:region "東京都"@ja, "Tokyo"@en ; vcard:locality "新宿区"@ja, "Shinjuku"@en ; geo:lat "35.69355" ; geo:long "139.70352" . #時間軸 <http://www.kanzaki.com/works/2011/stat/dim/d/20110607T08PT1H> rdfs:label "2011-06-07T08" ; tl:at "2011-06-07T08:00:00+09:00"^^xsd:dateTime ; tl:duration "PT1H"^^xsd:duration .
RDF統計データとLOD
- 統計データをSPARQLエンドポイントとして提供
- SPARQL Protocol for RDFを用いてデータを抽出可能
- Information Workbenchなどで視覚化の試み
できること、目指すこと
できること、リンクするデータの発信
- データをどんどん発信してリンクする
- 現実のデータのネットワーク
- 整備されたスキーマがなくても緩やかにリンクし、つながる
- 部分的なデータでも、リンクすることで新たな意味を持つこともある
- データのハブ、そして枝
- 領域の典拠、シソーラスをLOD化してリンクのハブに
- かつてHTMLで発信しようと呼びかけたように、データのウェブでも
- ハブをうまく利用して、つながるデータを
目指すこと、より広いコミュニティで
- Schema.orgのインパクト
- 検索3社によるSchema.orgがHTMLに構造化データを埋め込む方法を提唱
- SW/LODコミュニティは黒船騒ぎ、厳密なモデルと実装の現実のギャップについて議論百出
- 情報リソースと実世界実体のURIは区別すべきか、プロパティの目的語に人物実体と名前を混在させて良いのか、etc...
- RDF利用の観点からHarry Halpinがコミュニティに4つの提案(Schema.org considered helpful)
- Harryの提案
- LOD/RDFの利用者とUXを研究し、どうすれば実際に利用しやすくなるかに焦点を当てよう
- 現実の実証的なデータによるフィードバックでRDFの利点と問題点を考えよう
- RDFあるいはオープンデータを、実際に使える形でブラウザに組み込むことを考えよう
- Tabulatorは出発点
- 起業して実際の利用者に製品を届け、コミュニティにフィードバックしよう
- より広いコミュニティで、データのウェブを
- 学会だけでなく、ウェブアプリケーションやデジタルコンテンツの開発者、ユーザも含めて
- 身近なデータをリンクさせる、データのウェブへ
参照先
- 参照したリソース
- Online social networks, , The Economist
<http://www.economist.com/business/displaystory.cfm?story_id=10880936> - Linked Data - Design Issues, by Tim Berners-Lee,
<http://www.w3.org/DesignIssues/LinkedData.html> - Linking Open Data - W3C SWEO Community Project, ESW Wiki
<http://esw.w3.org/topic/SweoIG/TaskForces/CommunityProjects/LinkingOpenData> - DBpedia
<http://dbpedia.org/> - SKOS Simple Knowledge Organization System Reference, by Alistair Miles and Sean Bechhofer(ed.), , W3C Recommendation
<http://www.w3.org/TR/skos-reference/> - Library of Congress Subject Headings
<http://id.loc.gov/authorities/> - The Virtual International Authority File
<http://viaf.org> - 全国の環境放射能水準調査
<http://www.mext.go.jp/a_menu/saigaijohou/syousai/1303723.htm> - atmc.jp(全国の放射能濃度一覧)
<http://atmc.jp> - Putting Government Data online, by Tim Berners-Lee,
<http://www.w3.org/DesignIssues/GovData.html> - National Radioactivity Stat as Linked Data
<http://www.kanzaki.com/works/2011/stat/ra/> - Statistical Core Vocabulary, by Danny Ayers et al.,
<http://purl.org/NET/scovo#> - Statistical Data and Metadata eXchange
<http://sdmx.org/> - Expressing Statistical Data in RDF with SDMX-RDF, by R. Cyganiak, C. Dollin, D.Reynolds,
<http://publishing-statistical-data.googlecode.com/svn/trunk/specs/src/main/html/index.html> - Semantic Statistics: Bringing together SDMX and SCOVO, by Richard Cyganiak,
<http://events.linkeddata.org/ldow2010/slides/ldow2010-slides-cyganiak.pdf> - What is SDMX-RDF?, by Richard Cyganiak,
<http://www.slideshare.net/cygri/what-is-sdmxrdf-4696043> - Expressing Statistics with RDF, by Jeni's Musings
<http://www.jenitennison.com/blog/node/132> - Event Ontology, by Yves Raimond, Samer Abdallah,
<http://motools.sourceforge.net/event/event.html> - GeoNames
<http://www.geonames.org/> - Timeline Ontology, by Yves Raimond, Samer Abdallah,
<http://motools.sourceforge.net/timeline/timeline.html> - SPARQL Protocol for RDF, by Kendall Clark, et al. (eds), , W3C Recommendation
<http://www.w3.org/TR/rdf-sparql-protocol/> - Information Workbench
<http://iwb.fluidops.com/resource/JapanRadioactivity> - Schema.org
<http://schema.org> - Schema.org considered helpful, by Harry Halpin,
<http://lists.w3.org/Archives/Public/public-lod/2011Jun/0269.html> - Tabulator: Generic data browser
<http://www.w3.org/2005/ajar/tab>
- Online social networks, , The Economist