Web NDL Authoritiesの設計
Web NDLAとは
- Web NDLSH
- 国立国会図書館件名標目(NDLSH)をRDF化(2010)
- 作品の主題(キーワード)を表現するための統制語彙
- 基盤データベースから出力したMARCテキストデータを元にRDFに変換
- 国立国会図書館が件名標目データをテキストで公開→RDF版を試作(2006)
- 約10万件の標目を約130万トリプルのRDFで表現
- Web NDLA
既存データからのRDF生成
- データの解析
- レコードが記述している対象(実体)の把握
- レコードの属性と実体の対応付け
- RDFモデルの設計
- URIの設計
- 各実体を記述するモデル
- データセット内外のリンク関係
- 語彙の選択と設計
- マッピング
- 項目とプロパティの対応関係(値の統合、分割など)
- 値(コード、統制語)のURI化
- 複数値の順序の扱い
NDLSH(件名標目)での実体
- 件名標目とその対象概念の関係
- 標目としての「フランス革命」
- 1789年に起きた「フランス革命」(の概念)
- モデル化する(ラベルや上位下位関係を持つ)のはどちらか
対象概念のモデル
- 「フランス革命の概念」のモデル
- この実体を主語に、日付(1789年)、場所(パリ)などの記述ができる
- 「作成日」などの属性を記述するために標目のリソースを別途考える必要がある
件名標目のモデル
- 「国立国会図書館の件名標目」のモデル
- 件名標目の「作成日」としての日付、標目の出典や変更履歴
- ラベルや関係は、対象概念(フランス革命)のラベルや関係ではなく、標目のラベル、標目どうしの関係
- 「フランス革命」そのものの記述には別の実体リソースが必要
情報リソースとしての件名標目
- Web NDLSHは件名標目をモデル化する
- 当たり前のようだが、かなり頭の体操が必要
- たとえば
dc:subject
の目的語と考えた場合、主題は「フランス革命の概念」ではなく「国立国会図書館件名標目のフランス革命」
- たとえば
- ラベル、関係と共に作成日、改訂履歴などの管理情報も一括してモデル化
- 事象としてのフランス革命の記述は標目データに含まれていない
- 当たり前のようだが、かなり頭の体操が必要
- 件名標目は情報リソースか
- 情報リソースでないならば、ハッシュURIもしくは303転送する別URIを与えることになる(初期のLCSHはURIに
#concept
を加えていた) - Web NDLSHは情報リソースと考える(標目の主要な属性はすべてメッセージとして返すことができる)
- 情報リソースでないならば、ハッシュURIもしくは303転送する別URIを与えることになる(初期のLCSHはURIに
URIの設計
- 標目のURIにラベルを使うかIDを使うか
http://id.ndl.go.jp/auth/ndlsh/
愛
http://id.ndl.go.jp/auth/ndlsh/00560099
- ラベル型URI:利用しやすい一方、細目付件名などURI(IRI)として使えない文字が含まれる可能性、同音異義語
- ID型URI:確実な識別ができる一方、使いにくい
- ID型を主に、ラベル型も併用
- 基本URIをID型とし、ラベル型URIを
owl:sameAs
として結びつける - 件名標目の場合は、ラベルの重複(同名ラベル)はないので衝突は生じない
- 基本URIをID型とし、ラベル型URIを
読みの表現
- 言語タグによる読み
<http://id.ndl.go.jp/auth/ndlsh/00560099> skos:prefLabel "愛"@ja-Hani, "アイ"@ja-Kana ;
- 同義語(altLabel)が複数ある場合、これではどの読みなのか区別できない
- 構造化ラベル
- SKOSの拡張ラベルで標目形と読みを構造化
- 直接ラベルが得られないモデルは利用しにくいので、
rdfs:label
を追加 <http://id.ndl.go.jp/auth/ndlsh/00560099>
rdfs:label
"愛"; xl:prefLabel [xl:literalForm
"愛";ndl:transcription
"アイ" ];
NDLNA(名称典拠)での実体
- 典拠レコードと実体リソース
- 件名標目と同様、典拠とその対象実体の両方がある
- 典拠レコードには、「生年」「設立年」など対象実体の属性が含まれる
dct:creator
の値域がdct:Agent
であるなど、実体リソースを期待される場合が多い
- 名前空間を分け、primaryTopicで結ぶ
- 典拠レコードURIは
ndlna
名前空間 - 実体リソースは
entity
名前空間 - 同姓同名があり得るので、ラベル型URIは用意しない
- 典拠ラベルは生年などを付与して区別
- 典拠レコードURIは
2種類の別名
- 「を見よ」参照
- 栗本薫の本名=今岡純代
- 代替ラベル(
altLabel
)=典拠の属性。独立した実体としては扱わない
- 「をも見よ」参照
- 別のペンネーム=中島梓
- 著者として別人格であり、独立した実体(対応する典拠レコードがある)
ndl:anotherName
を導入して典拠同士を関連付け
語彙の選択
リンクするデータとしてのWeb NDLA
- 外部シソーラス体系との連繋
- NDLSHはSKOSマッピングプロパティ(
skos:exactMatch
、skos:closeMatch
など)でLCSHなどとリンク - NDLNAもVIAF (20カ国近くの国立、国際図書館の典拠が連動)に
skos:exactMatch
でリンク(今後充実)
- NDLSHはSKOSマッピングプロパティ(
参照先
- 参照したリソース
- 国立国会図書館件名標目
<http://www.ndl.go.jp/jp/library/data/bunruikenmei.html#ndlsh> - What's 書誌調整?第3回 典拠ってなんだ, , 国立国会図書館月報 No.510
<http://www.ndl.go.jp/jp/library/data/whats/3rd.html> - Web NDL Authorities - 国立国会図書館典拠データ検索・提供サービス
<http://id.ndl.go.jp/auth/ndla/> - Cool URIs for the Semantic Web, by Leo Sauermann, et al.(eds.),
<http://www.w3.org/TR/cooluris/> - Library of Congress Subject Headings
<http://id.loc.gov/authorities/> - SKOS Simple Knowledge Organization System Reference, by Alistair Miles and Sean Bechhofer(ed.), , W3C Recommendation
<http://www.w3.org/TR/skos-reference/> - Dublin Core Metadata Terms, by DCMI Usage Board, , DCMI Recommendation
<http://dublincore.org/documents/dcmi-terms/> - 国立国会図書館ダブリンコアメタデータ記述,
<http://www.ndl.go.jp/jp/library/data/meta.html> - RDA Group 2 Elements, , Metadata Management Associates
<http://RDVocab.info/ElementsGr2/> - Resource Description and Access
<http://www.rdatoolkit.org/> - FOAF Vocabulary Specification, , Dan Brickley, Libby Miller
<http://xmlns.com/foaf/0.1/> - The Virtual International Authority File
<http://viaf.org>
- 国立国会図書館件名標目
- 関連資料
- 第3回LinkedData勉強会 #lodjp
Twitterでの実況の@fumi1さんによるまとめ(togetter) - 第3回LinkedData勉強会発表資料ほか
- 第3回LinkedData勉強会 #lodjp