図書館目録からLinked Dataへ
- 目録表現のデータモデルと実体
- データモデリングと実体
- 書誌における実体
- 典拠における実体
- FRBRの実体関係分析
- FRBRでの実体間の関係
- RDAでの実体の関係
- BIBFRAMEがとらえる実体
- RDF:リソース表現の共通モデル
- 実体の識別とリンク
- 目録における実体と識別子
- グローバルなスコープを持つ識別子
- データ型とURI
- 目録での識別子のURI化
- RDFとURI:ウェブ上での識別
- リンクするデータ
- リンクするデータとしての目録記述
- MARC:目録データの機械可読化
- 目録からメタデータへ
- 語彙を組合せた目録RDF記述
- FRBRモデルを用いたフランス国立図書館の目録RDF
- BNF:グループ1の記述
- BNF:グループ2/3と外部へのリンク
- BIBFRAMEを用いる米議会図書館の実験
- LCのBIBFRAMEグラフ全体像
- リンクするデータとしてのBIBFRAME
- Schema.orgと目録記述
- Schema.orgを用いたWorldCatのモデル
- Schema.orgによるVIAFのRDF記述
- VIAFを介したリンク
- 目録LODの可能性と課題
- 情報の由来と名前付きグラフ
- 参照先
目録表現のデータモデルと実体
データモデリングと実体
- 属性―値対としてのデータ記述
- フラットな表によるデータの記述
- 実体の関係としてのデータモデル
- 独立した存在として情報を付与できるものを実体(entity)と捉える。実体は属性(attribute)を持つことができる。
- データを実体間の関連(relation)として捉える(ERモデル)
書誌における実体
- 書誌データにおいて実体として捉えられるもの
- 著者、訳者、出版者、出版地などは実体と考えられる
- 本そのものも実体だけれど、書誌データのどこに?
- 分類などは実体?
典拠における実体
- 典拠概念と実在する実体
- 標目やノート、ソースなどから構成される典拠概念(実体)
- 標目によって示されている実在物(人物、場所、時代…)
- 標目ID
00444960
が表す実体は…
FRBRの実体関係分析
- タスクと実体の分析
- FRBRでは4タスク(発見、識別、選択、取得)を念頭に実体分析:
- 情報利用者の関心対象となる実体の単離 →
- 基本実体間の関係の定義 →
- 各実体の持つ重要な特性=属性の特定
- FRBRがとらえる実体
- グループ1:作品、表現形、体現形、アイテム
- グループ2:人、団体
- グループ3:概念、オブジェクト、イベント、場所
- 実体と属性(グループ1)
- 作品………タイトル、形態、日付、対象、etc.
- 表現形……タイトル、形態、日付、言語、要約、etc.
- 体現形……タイトル、責任表示、版、出版地、出版者、発行日、媒体、etc.
- アイテム…識別子、来歴、状態、個別特徴、etc.
FRBRでの実体間の関係
- 主要な関係
- 作品 ―
実現される
→ 表現形 ―具体化される
→ 体現形 ―例示される
→ アイテム - 作品 ―
創造される
→ グループ2 ←所有される
― アイテム - 作品 ―
主題として持つ
→ グループ1~3
- 作品 ―
RDAでの実体の関係
- FRBRに対応する関係
- RDAはFRBRのモデルに対応づけて目録を記述するプロパティを規定
- 作品と体現形を直接関連付けるプロパティを設定
- 双方向のプロパティをそれぞれ明示
BIBFRAMEがとらえる実体
- BRBFRAME 1.0での主要な実体
- 作品とインスタンス:前者はFRBRの作品と表現形に、後者は体現形にほぼ相当
- 典拠:FRBRのグループ2および3にほぼ相当
- 注釈:他の実体に関する付加情報。FRBRのアイテムに相当する
HeldItem
もこの一種
BIBFRAME 2.0ではAuthority、Annotationは廃止され、Item(1.0のHeldItem)が独立して3階層モデルとなりました(2016-04-27追記)。
RDF:リソース表現の共通モデル
- さまざまなモデルを表現できるフレームワーク
- RDFは、対象を明確に識別するため、属性―値対に主語を加えたトリプルで表現
- 属性→プロパティ=リソース間(対象と値)の関係
- 各々の実体がそれぞれ独立した存在
- レコードはトリプルに分解される
- トリプルの集合=グラフ
実体の識別とリンク
目録における実体と識別子
- 書誌に用いられる識別子(名前)
項目名 値 実体 BIB System No. 000746395 書籍(体現形?) ISBN 4309202829 書籍(体現形) 著者 Joyce, James, 1882-1941 人 出版事項 東京 場所 出版事項 河出書房新社 出版者 分類 933.7 NDC9
- 典拠に用いられる識別子
項目名 値 実体 標目ID 00444960 典拠 標目 Joyce, James, 1882-1941 人(?) 関連リンク n79056824 LC典拠
グローバルなスコープを持つ識別子
- 識別子のスコープ
- スコープが限定された識別子:書誌ID(図書館内)、ISBN(書籍のみ)
000746395
、00444960
は何を識別するのか→使い分けにはスコープを示すコンテクストが必要(例えば前者はBIB System No.、後者はNDLA典拠ID)- ウェブ上のリソースを識別するにはグローバルなスコープが必要
- 識別子がグローバルなら、モデルで関連付ける対象(実体)を組織やシステムの外まで広げることができる
- URIもしくはIRI
- ウェブ上のグローバル識別子としてURIを用いることができる
- 識別子を名前として用いるためには英数字だけでなくUnicode全般の文字を使いたい→国際化識別子IRI
- ※以下では慣用的な用語としてURIを用いるが、意味としてはすべてIRI
- Resouce Identifierなので、ネットワーク上のものだけでなく、抽象的実体や関係の識別にも使える
データ型とURI
- データ型:コンテクストの明示
933.7
は数値?識別子?- KOSMOSでの表示は
NDC9:933.7
→プライベートな名前空間接頭辞を用いて区分 - リテラル値のデータ型:
"933.7"^^xsd:decimal
なら計算式で使える。"933.7"^^dcndl:NDC
なら分類記号として理解できる
- URI:グローバルな識別+リンク
- 分類記号を例えばhttp://id.ndl.go.jp/class/ndc9/933.7のように表現
- 同じ識別子を持つリソース(書誌)がグラフでつながる
- リンクをたどって情報(リソース記述)を得られる
目録での識別子のURI化
- 目録識別子のURIを考える
- 標目ID
00444960
をURI化する - BIB System No.
000746395
をURI化する
- 標目ID
- 実体を区別したURI化
実体種別 URI 典拠 http://id.ndl.go.jp/auth/ndlna/00444960 人物 http://id.ndl.go.jp/auth/entity/00444960 - URIをたどるとブラウザにはHTML、RDFアプリケーションにはRDFが返される
- API型URIと実体の識別
- 例えば書誌詳細を取得するAPIのhttp://keio-opac.lib.keio.ac.jp/F?func=direct&doc_number=000746395も、書誌IDによる恒久URI
- 書籍実体のURIとしても使えないわけではないが、できれば
opac
、func
など機能を表す名前を含まないURIの方が最終ユーザ(人間)の混乱を招かない
RDFとURI:ウェブ上での識別
- RDFリソースをURIで識別する
- トリプルの各要素をURIで識別(主語―述語―目的語)
- 別個に記述された=組織外の情報(グラフ)もURIが同じならつながる
- 実体化されないプロパティ値(実体の属性)はリテラルとして記述
- URIのない空白ノードはトリプルの節点としては機能するが外部からは参照できない
リンクするデータ
- 文書のウェブからデータのウェブへ
- 従来のHTML文書を中心にしたウェブは、ハイパーリンクによって発展した
http:
スキームURIなら識別子(名前)をハイパーリンクとしても機能させることができる- リンクをたどって関連情報を得られるようにすれば、データのウェブとなる
- バーナーズ=リーによるLinked Dataの4原則
リンクするデータとしての目録記述
MARC:目録データの機械可読化
- 目録項目のコード化
- MARC:独自のコードとフォーマット(フィールド+サブフィールド)による機械可読化
- MarcXML:独自フォーマットを汎用化(コードはMARCそのまま)
- XSLTなどを用いたフォーマット/語彙変換を想定
目録からメタデータへ
- 領域を超えたリソース記述
- タイトル、作者、日付などは、書籍にかぎらずさまざまな創作物に共通する → 共通の語彙でメタデータを記述することで共有・再利用を
- ダム・ダウン:単純化した汎用プロパティを用いれば、精度は低下するが広い共有・再利用が可能
- たとえば「作曲家」の代わりに「作者」とすれば音楽作品を他領域の作品と同列に記述できる
- サブプロパティ:「作曲家」も「著者」も作者の一種(詳細化)と定義すれば、どちらで記述したデータからも「作者」という汎用プロパティでの関係が導ける
- 語彙の共有とDublin Core
- 広い領域で共通に用いることができる汎用項目=単純化した15要素のSimple DC
- 修飾子による詳細記述(
date
→date.created
)から詳細プロパティ(created
)を独立させ、DCメタデータ語彙を2003年に定義。詳細プロパティは15要素のサブプロパティ - 領域に特化した語彙もDCとサブプロパティ関係を定義すれば、共有・再利用の手がかりができる
語彙を組合せた目録RDF記述
FRBRモデルを用いたフランス国立図書館の目録RDF
- モデルと実体の関連
- BNFのモデル解説に示されているように、FRBRに準拠したモデル設計
- グループ1は作品、表現形、体現形が相互に関連付けられ、さらに典拠→作品の関係も
- グループ2は著者が作品および表現形から関連付けられる。典拠→人の関係も。出版者は実体化されていない(リテラル値のみ)
- 日付や言語も実体として扱われている
- 記述語彙
- 外部へのリンク
- 典拠からVIAF、DBpedia、IDREFなどに
skos:exactMatch
- 人物実体から上と同じリソースに
owl:sameAs
- 典拠からVIAF、DBpedia、IDREFなどに
BNF:グループ1の記述
-
- (図はクラスとラベルをまとめた型付ノードグラフ)
BNF:グループ2/3と外部へのリンク
BIBFRAMEを用いる米議会図書館の実験
- モデルと語彙
- モデルの細部は当初のダイアグラムからは変化:たとえば
format
の値は典拠ではなくなり、publisher
の代わりにpublication
がProvider
を介してAgent
に関連付ける - 語彙はBIBFRAME Vocabularyページにまとめられている。発展中(2015年後半にも改訂予定とのこと)
- モデルの細部は当初のダイアグラムからは変化:たとえば
- 変換ツールと生成されるグラフ
- MARCデータをできるだけ忠実にBIBFRAME化するツール類の提供
- 保守的な変換ということもあり、空白ノードが多い
LCのBIBFRAMEグラフ全体像
リンクするデータとしてのBIBFRAME
- 作品、インスタンスの識別
- 作品はBibIDに基づくURIで識別され、リンクをたどってRDFを取得できる(例:http://id.loc.gov/resources/bibs/12533842)
- インスタンスは
bf:lccn
、bf:isbn
など多くの識別子をプロパティ値として持つが、インスタンス自身は現状では空白ノード
- 典拠クラスの識別とリンク
Schema.orgと目録記述
- ワンストップ語彙としてのSchema.org
- 複数の語彙を組み合わせる煩わしさを解消するため、非常に広い領域をカバー(2015年1月時点で10の上位クラスのもとに600以上のクラス=記述対象のタイプ)
- Google、Yahoo、Bingなど主要検索エンジンがサポート
- RDFを必ずしも意識しない(ウェブページにMicrodataなどの形で埋め込まれる場合が多い)
- 目録記述のためのSchema.org拡張
- W3CのSchema Bib Extend Community GroupでSchema.orgの拡張を検討し、定期刊行物記述プロパティも含めて導入
- たとえばBookクラスには上位のCreativeWorkから受け継いだものも含め70以上のプロパティが用意されている
- WorldCat、VIAFのRDFモデルがSchema.orgを採用
- さらにSchema.orgを拡張/補完する形でBiblioGraph.net語彙を定義し、多数の語彙を混在させずに記述することで扱いやすく
Schema.orgを用いたWorldCatのモデル
Schema.orgによるVIAFのRDF記述
VIAFを介したリンク
-
- 各国図書館の目録は何らかの形でVIAFとリンク
- VIAFからはDBpediaにリンク → さらにグラフがつながって行く
目録LODの可能性と課題
- 可能性あるいは展望
- DBpediaやGeoNamesなどのLODハブとつながることで大きなデータのウェブに
- ウェブにおける信頼度の高い情報としての目録LOD
- 次への課題
- より多くの識別子のURI(実体)化、特に図書館外でも利用できる識別子のURI化(ISBNなど)
- 質疑の中でご紹介したフィンランドにおけるISBNのURI化は、urn:isbn:...の形をフィンランド国立図書館のURNリゾルバによって
http:
スキームURIとしています。例えばhttp://urn.fi/URN:ISBN:978-952-10-9981-6。ただし個別に登録する必要があるようで、どんなISBNでも解決されるというわけではありません。 - 同じく言及したRDF Book MashupはAmazon、Googleなどの書籍ウェブサービスに問い合わせて当該ISBNに対応するRDFを生成しています
- 質疑の中でご紹介したフィンランドにおけるISBNのURI化は、urn:isbn:...の形をフィンランド国立図書館のURNリゾルバによって
- 同一/類似実体の相互の関連付け(NDCとDDCの対応付け、各種典拠の地名など)
- 情報の広がりと信頼度のバランス:LODの世界は目録の世界ほど厳密ではない
- より多くの識別子のURI(実体)化、特に図書館外でも利用できる識別子のURI化(ISBNなど)
情報の由来と名前付きグラフ
- データセットとグラフ識別子
- RDFはデータを併合してしまうと情報源が区別できない?
- RDFデータセット中のグラフに識別子を与える(名前付きグラフ)
- グラフ識別子を主語に、来歴情報を管理する → 情報提示方法を変えるなどして情報源や信頼度を区別できる
- (作図ツールの制約でviaf、dbpediaのノードが一つのグラフのみに含まれていますが、それぞれkeio.jp、viaf.orgのグラフとも共有され、橋渡しとなるノードです。)
参照先
- 参照したリソース
- Functional Requirements for Bibliographic Records - Final Report, by IFLA Study Group, 1997-09
<http://www.ifla.org/publications/functional-requirements-for-bibliographic-records> - Resource Description and Access
<http://www.rdatoolkit.org/> - BRBFRAME - Bibliographic Framework Initiative
<http://www.loc.gov/bibframe/> - RDF 1.1 Concepts and Abstract Syntax
<http://www.w3.org/TR/rdf11-concepts/> - Linked Data - Design Issues, by Tim Berners-Lee, 2006-07-27
<http://www.w3.org/DesignIssues/LinkedData.html> - Dublin Core Metadata Element Set, Version 1.1, 2012-06-14, DCMI Recommendation
<http://dublincore.org/documents/dces/> - Dublin Core Qualifiers
<http://dublincore.org/documents/2000/07/11/dcmes-qualifiers/> - Dublin Core Metadata Terms, by DCMI Usage Board, 2003-03-03/2012-06-14, DCMI Recommendation
<http://dublincore.org/documents/dcmi-terms/> - FOAF Vocabulary Specification, by Dan Brickley and Libby Miller, 2014-01-14
<http://xmlns.com/foaf/spec/> - SKOS Simple Knowledge Organization System Reference
<http://www.w3.org/TR/skos-reference/> - Semantic Web and data model, Bibliotheque nationale de France
<http://data.bnf.fr/semanticweb-en> - The RDA (Resource Description and Access) Vocabularies
<http://rdvocab.info/> - Vocabularies of the Bibliotheque nationale de France
<http://data.bnf.fr/vocabulary-en> - BIBFRAME Vocabulary
<http://bibframe.org/vocab/> - BIBFRAME Editor/MARC to BIBFRAME transformation tools
<http://bibframe.org/tools/> - The "lightweight abstraction layer" -- On BIBFRAME Authority, by Kevin Ford and Ted Fons, 2013-08-15
<http://bibframe.org/documentation/bibframe-authority/#layer> - Authority Subclasses: Topics and Issues, 2014-10-15
<http://www.loc.gov/bibframe/topics/authorities.html> - Schema Bib Extend Community Group
<http://www.w3.org/community/schemabibex/> - WorldCat - Data strategy and linked data
<http://www.oclc.org/data.en.html> - VIAF - Virtual International Authority File
<http://www.oclc.org/viaf.en.html> - OCLC adds Linked Data to WorldCat.org, 2012-06-20
<http://www.oclc.org/news/releases/2012/201238.en.html> - BiblioGraph.net
<http://bibliograph.net/> - フィンランド国立図書館のURNリゾルバ
<http://www.nationallibrary.fi/publishers/urn.html> - RDF Book Mashup
<http://wifo5-03.informatik.uni-mannheim.de/bizer/bookmashup/>
- Functional Requirements for Bibliographic Records - Final Report, by IFLA Study Group, 1997-09