2月に入ってGRDDLをサポートするツールが2つ立て続けに登場した。一つはRaptor RDF Parser Toolkit(Dave Beckettのアナウンス)、もう一つはJena GRDDL Reader(Jeremy Carrollのアナウンス)。いずれも、XHTMLプロファイルを通したスタイルシートの間接指定ができるようになっているところが大きい。
Raptorは、C#、Java、Perl、PHP、Rubyなどの言語から利用できるRDFパーサの高速ライブラリで、RDF/XML仕様のエディタ自らが作っている定評あるもの。GRDDLは昨年からサポートしていたが、今回スタイルシートの間接指定も処理できるようになった。手元で試してみたら、XML/RDF出力だとxml:baseがうまく出てこないものの、GRDDLの処理はきちんとできている。
JenaはJavaでRDFを処理するための定番ライブラリ群で、そこにGRDDLのセットが加わった。今回のGRDDL Readerはバージョンが0.1という実験レベルで、試してみたらまだ処理はかなり遅かったが、それでもきちんと働く(Jenaは2.5が必要)。前処理にNekoHTMLを使って整形式でない(X)HTMLを整形式にバランスさせるオプションがあるので、世の中に氾濫しているXHTMLくずれでもGRDDLが利用できるというのもポイントだ。
「RDFのデータは誰が書くのだ」というところはセマンティック・ウェブにとって大きな課題であったわけだが、class属性、rel属性を活用した文書(よく考えられたCSSを使う文書とかmicroformatsとか)からXSLTでRDFを抽出するという戦略は、比較的可能性がありそうにみえる。この抽出用XSLTの指定方法がGRDDLというわけだ。基本的にはlink要素でXSLTを指定しなければならないのだが、間接方法なら、誰かが用意してくれたGRDDL対応プロファイルのURIをhead要素のprofile属性に書くだけでよい。たとえば、
<head profile
="http://purl.org/net/ns/metaprof
">
というプロファイルを書いておけば、キーワードをdfn
要素でマーク付けしたり、文書が取り上げている主要テーマに関するリンク(a
要素)にitemprop="mentions"
という属性を加えるだけで、文書のメタデータRDFを抽出できるようになる(詳しくはMetadata in XHTML - XSLTによる抽出参照)。こうした規則的な記述を埋め込むのは、ウェブログツールならそれほど難しくない話だろう。
ウェブログサービスがXSLTとプロファイルを用意してくれれば、一気に世の中のRDFデータが充実することになる。どこか、採用してくれないかな。