XHTMLにメタデータを埋め込み、RDFとしての抽出を可能にする方法について、HTML WGからXHTML and RDFという文書が出てきた。XHTML2を前提にしているので直接の利用価値はないが、考え方の一部は現在のXHTMLでも可能で、GRDDLによる抽出もできそうだ。
ざっと読んだところでは、head
要素を使ってつぎのようなメタ情報を記述するという感じ。
html
要素でdc:
などの名前空間宣言を行うmeta
要素のname
属性の変わりにproperty
属性を導入して、そこでプロパティのQNameを記述meta
要素を入れ子にすることで構造化メタデータも記述できるようにする- リテラル値ではなくURIをもつリソースを目的語にするには、
link
要素を用い、rel
属性にプロパティのQNameを記述 - さらに
link
要素にabout
属性を導入することで、外部文書やXHTML文書内のフラグメントなど、文書自身以外を主語にしたメタデータも記述できるようにする
掲載されているいくつかの例を合成して、ひとつ簡単なサンプルを作ってみる(例の中での#q
は、本文のパラグラフidへの参照)。
(例)
<html xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:con="http://www.w3.org/2000/10/swap/pim/contact#"> <head> <title>How to complete Memorandum cover sheets
</title> <metaproperty
="dc:creator"> <metaproperty
="con:fullName">John Doe
</meta> </meta> <linkabout
="#q1" rel="dc:source" href="http://www.example.com/tolkien/twotowers.html
" /> </head>
適当なXSLTを使うなどして、次のようなRDFを得ることができる。
(例)
<rdf:Description rdf:about=""> <dc:title>How to complete Memorandum cover sheets
</dc:title> <dc:creator rdf:parseType="Resource"> <con:fullName>John Doe
</con:fullName> </dc:creator> </rdf:Description> <rdf:Description rdf:about="#q1"> <dc:source rdf:resource="http://www.example.com/tolkien/twotowers.html
"/> </rdf:Description>
さらに本文についてメタデータを与える方法も、いくつかのアイデアが示されている。
- resource属性を(span要素などとともに)使って、単なる文字列として出現している値を、リソースとして理解できるようにする
- property属性をmeta要素に限らずあらゆる要素に認めて、本文そのものが直接メタデータになるようにする
挙げられている例を多少修正して紹介すると:
(例)
<p>By <spanproperty
="dc:creator">John Doe</span></p> <p>Tomorrow the <spanresource
="p:TonyBlair">Prime Minister</span> is expected to fly to ...</p>
こちらはまだ疑問が残る部分があるが、概ね次のようなRDFを得ることを想定している。
(例)
<rdf:Description rdf:about=""> <xhtml2:reference rdf:resource="http://people.com/TonyBlair"/> <dc:creator>John Doe</dc:creator> </rdf:Description>
meta要素の入れ子はともかくとして、property属性、resource属性による方法は現在のXHTMLに応用できなくはない。多少強引ながら、class属性にQNameを書いたり、a要素とrel属性を組み合わせれば、似たようなことはある程度可能だろう。dfn要素を利用するのも面白そうだ(「XHTMLからメタデータを自動抽出する」で検討している方法と重なる部分が多いので、これらも取り込んだ形で、そのうち改訂しよう)。
head要素だけでなく本文まで踏み込んでタグ付けを試みることで、日付とか作者といったシンプルな書誌データのみならず、キーワードや細かな参照関係など内容に関するメタデータを抽出できることになる。さらに、本文とメタデータを同時にメンテナンスできるので、メタデータが等閑にされる危険が減るというのも大きいな。
- 小文字のsemantic web (2004-03-05)
- XHTMLとメタデータ:汎用的な方法 (2004-03-15)
- GRDDLがW3Cのグループ・ノートに (2004-04-14)
- Microformatの先へ (2006-04-27)
- セマンティック・ウェブが目指さないもの (2004-02-24)
- GRDDLのプロファイル更新 (2004-02-06)