日本関係外国語図書の書誌情報:ジャパンサーチモデル版Books on Japan in Foreign Languages, Bibliographic Data in Japan Search Model
ジャパンサーチ利活用スキーマをオープンデータに応用する例として、国立国会図書館の日本関係外国語図書の書誌情報(試行版)をRDF化してみました。データ値がコードである分類、出版国、言語のほか、出版者の一部も正規化してURIを付与しています。
This is an RDFization of Bibliographic Data of Books on Japan in Foreign Languages (Beta version), as an application of Japan Search data model to generic open data. In addition to Classifications, Publication Countries and Languages (which are codes in source data), some major publishers are normalized and assigned URIs.
マッピングについてAbout this mapping
ジャパンサーチ利活用スキーマは多様な分野の情報を集約して記述するために設計しているので、多くのオープンデータも比較的容易にマッピングできると思います。日本関係外国語図書書誌の場合は、およそ次のような形でマッピングしました。
Because Japan Search RDF model is designed to describe information aggregated from wide variety of fields, many open data can easily be mapped to this model. For this Books on Japan data, the outline of the mapping is as follows:
- 日本関係外国語図書の書誌情報TSVデータを元に、利活用スキーマへのマッピング定義を用意して、RDFに変換しました。基本的なマッピングは下の表のとおりです。
- 利活用スキーマへの変換では、1つの元データから直接記述プロパティと構造化プロパティを生成するなど、複数マッピングを定義するものがあります。たとえば「出版年」は正規化値として
schema:temporal
にマッピングするとともに、構造化値のjps:temporal
にもマッピングします。 - 表において2つのプロパティを'
/
'で連結したものは、プロパティ・パス(連結されたプロパティをたどった値)を表します。またjps:temporal(/schema:description)
などと()
付きで記述しているものは、構造化値のschema:description
に元データの文字列を保持しているという意味です。
- 利活用スキーマへの変換では、1つの元データから直接記述プロパティと構造化プロパティを生成するなど、複数マッピングを定義するものがあります。たとえば「出版年」は正規化値として
- TSVにおいて、タイトルは複数言語のものが'
=
'で連結されているので、前処理で分割した上でそれぞれ(言語情報がないため)言語タグ無しのschema:name
とし、最初のものをrdfs:label
に用いました。著者、出版年、出版者、言語コード、出版国コード、分類(NDLC)は';
'で連結された値を前処理で分離しました。- 著者の'
,
'区切りなど、マッピングツールの機能として処理中に分割しているデータもあります。
- 著者の'
- 出版者は件数が多いものを辞書に追加して正規化しました。著者は典拠がないため残念ながら正規化できていません。
- ソースデータ情報の
jps:sourceData
の値は、元TSVの行位置をRFC7111に従ったURIとしました(ただしファイルはZIPされているので、リンクは繋がりません)。
- Bibliographic Data TSV of Books on Japan was converted to RDF by the same tool to generate Japan Search RDF with custom mapping file. See the table bellow for the basic mapping.
- Source Title (タイトル) field has multiple language labels concatenated by '
=
'. Those are mapped toschema:name
without lang tag (because no lang info), and the first one is also mapped tordfs:label
. Authors (著者), Publication years (出版年), Publishers (出版者), Lang codes (言語コード), Publication country codes (出版国コード), Classifications (分類) are concatenated by ';
' in source, and divided into single values. - Frequent Authors Publishers (出版者) are normalized with a dedicated dictionary. (著者) are not normalized due to lack of authority information.
- The value of
jps:sourceInfo/jps:sourceData
is a URI whose fragment id is RFC7111, i.e. the row position of source TSV (though it is not a linked data because the file is zipped).
TSVフィールド field label | マッピングmapping 1 | マッピングmapping 2 | データ例data sample |
---|---|---|---|
書誌ID | @id (subject uri) | schema:description | 025415947 |
タイトル | rdfs:label | schema:name | 移动的帝国 : 日本移动互联网兴衰启示录 = Nation of mobile |
著者 | schema:creator | jps:agential(/schema:description) | 曾航, 刘羽, 陶旭骏 著 |
版表示 | schema:description | - | |
出版地 | jps:spatial/schema:description | - | 杭州 |
出版者 | schema:publisher | jps:agential(/schema:description) | 浙江大学出版社 |
出版年月日 | jps:temporal/schema:description | - | 2014.1 |
出版年 | schema:temporal | jps:temporal(/schema:description) | 2014 |
数量・大きさ等 | schema:description | - | 4, 9, 292 p. 25cm |
シリーズタイトル | schema:description | - | |
ISBN | schema:identifier | schema:isbn | 9787308124515 |
言語コード | schema:inLanguage | - | chi |
出版国コード | schema:spatial | jps:spatial(/schema:description) | CN |
分類(NDLC) | schema:about | - | DK341 ; DK348 |
請求記号 | jps:accessInfo/jps:contentId | - | DK341-C20 |
国立国会図書館オンラインURL | jps:accessInfo/schema:url | - | http://id.ndl.go.jp/bib/025415947 |
データ例の列で示した値は、http://purl.org/net/ld/jpsearch/data/boj-025415947のようにマッピングされます。
Data shown in data sample column is mapped as http://purl.org/net/ld/jpsearch/data/boj-025415947.