music & knowledge sharing
デジタルアーカイブ産業化マップとは
- DA産業化マップの誕生
- DAショートトークの充実した内容の発表が蓄積されつつある
- テーマごとに整理して活用できるようにしたい
- 第3回()が終わった時点で検討に着手 → にプロトタイプ
- 部会での議論・検討を経て、に産業とデータ・コンテンツ部会サイト発足と合わせ公開
- マップ作成の考え方
- ショートトークでの議論からDAと産業の関わりについてテーマを抽出する
- テーマをいくつかのグループにまとめ、その関係を分析する
- テーマのグループを何らかの軸によって二次元マップとして視覚化する
- マップに軸は必須ではないが、ここでは考え方を把握しやすいように軸を用いる
- プロトタイプ作成の準備
- 各DAトークを拝聴したメモから、まず思いつくテーマを取り出してみる
- 教育利用、電子出版、コンテンツ販売、自治体、NFT+デジタルアート…など
- 軸はたとえば利用の形(一次利用←→二次利用)と利用/事業主体(学術/公共←→民間)
- まずこの2軸による二次元空間にテーマを当てはめ、必要に応じて拡張する
形と主体の2軸による仮マップ
-
- 利用の形(一次利用←→二次利用)と主体(学術/公共←→民間)の2軸上に頭で考えたテーマを配置してみる
- ショートトークの内容に対して必要十分なテーマ群ではなさそう
- マップ上で技術的トークの行き場がない
テキスト分析によるテーマの抽出
- 統計ツールを用いたテキスト分析でテーマを抽出
- 過不足のないテーマ抽出のため、テキスト分析ツールを用いてクラスタ(関連度の高い語のグループ)生成を試みる
- 第3回までのショートトークの題目と手元の聴講メモから各トークについて短文を作成
- 第4回以降の予定題目とウェブで調べた情報から簡単な紹介文
- 文章量が少ないので、安定した分析はできないが、傾向はつかめそう
- KH Coderでの分析
- 計量テキスト分析/テキストマイニングに広く使われるフリーソフトKH Coderで語を抽出
多次元尺度構成法の二次元図
-
- テキスト中の語の距離(出現パターンの類似度)を散布図にする多次元尺度構成法(MDS)で二次元表示
- 複数あるMDS手法から、計量的(古典的)MDSを選択。距離の計測にJaccard係数を用いた
- 計量的MDSは類似度の距離データが比率尺度と考える手法。Jaccard係数は頻度より共起を重視する。他の手法よりも、仮2軸と関連付けて解釈しやすい散布図が得られた(手法が違えば図は大きく異なる。例えば同じ計量的MDS+cosine係数距離、非軽量的なKruskal法+Euclid係数距離にするなど)
- 語の出現頻度が円の大きさ。さらに隣接クラスタオプションを用いてクラスタごとに色分け
- 概ね利用の形と主体の2軸で解釈できる。ただし左下のクラスタにある技術的トークは軸をはみ出している
多次元尺度構成法の図をベースにした概念マップ
-
- 分析では12クラスタを生成 → 産業化の観点でやや強引に9グループにまとめ
- さらに各クラスタの語と軸ラベルをにらみながらグループに概念ラベルを付与
概念マップから産業化マップへ
- 留意点:あくまで大まかなテーマのグループ
- MDSで配置されたクラスタをベースに、まとまりに対してラベルを付与
- グループは解析結果クラスタそのものではなく、またラベルはDA産業に結び付けられるように考えたもの
- MDSは要素の相対配置であり、軸は回転可能なので、方向性は一般には解釈できない
- 地図や地球儀を回転しても使えるのと同様、軸の方向性は直接の意味はない
- 外部的情報(赤道付近は暑く両極は寒いなど)を利用した解釈はできる。ここでも軸ラベルは外部から持ち込んだもの
- MDSの手法によっても、また各ショートトークの説明文の作り方によっても、図の形は違ってくる
- 各ショートトークへのタグ付け
- 第4回ショートトーク各講演を横軸に、概念マップのタグを試しに付与
↓マップ \ トーク→ | 自治体史 | 電書流通 | ポーラ文研 | アニメ素材 | ビデオ要約 | 自治体向け |
統合ポータル | △ | | △ | | | |
各分野/MLA/地域 | ● | | ● | ● | | ● |
教育利用等 | ● | | ● | | | |
インフラ/法整備 | ● | | | | | |
電子出版/長期保存 | | ● | | | | |
コンサル/サポート | | ○ | | | | ● |
応用Biz創出/流通 | | ● | | | ● | |
コンテンツ処理技術 | | | | ● | ● | |
AI利用等応用技術 | | | | | ● | |
- 全体のトークについて産業部会の黒橋部会長がタグ付け。同原田先生によりSVGを用いた産業化マップへ
参照先
- 参照したリソース
- DAショートトーク, デジタルアーカイブ学会 産業とデータ・コンテンツ部会
<https://sangyo.digitalarchivejapan.org/sangyo/index.php/shorttalk/>
- デジタルアーカイブ・ベーシックス5: 新しい産業創造へ, 2022, 時実象一 監修/久永一郎 責任編集
<https://digitalarchivejapan.org/books/basics-5/>
- KH Coder: 計量テキスト分析・テキストマイニングのためのフリーソフトウェア, 2001-2022, 樋口耕一
<https://khcoder.net/>
- (参考として)多次元尺度構成法, by 齋藤堯幸, 1983, 計測と制御 22巻1号p.126-131
<https://doi.org/10.11499/sicejl1962.22.126>
- 第4DA回ショートトーク
<https://sangyo.digitalarchivejapan.org/sangyo/index.php/shorttalk/#archive_4>
- DA産業化マップ, デジタルアーカイブ学会 産業とデータ・コンテンツ部会
<https://sangyo.digitalarchivejapan.org/sangyo/index.php/map/>