オープンデータを"続ける"ための小さな再スタート
BODIKディレクター 坂本 好夫
前回の記事「なぜ今、オープンデータなのか?」では、生成AI時代において、オープンデータが公共の意思決定を支える基盤になりつつある、という話をしました。
一方で、自治体の現場では、こんな声も多く聞きます。
- 「必要性は分かったが、何から始めればよいかわからない」
- 「専門的で難しそう」
- 「人手も時間も限られている」
この記事では、そうした自治体の皆さまに向けて、小さく始めるための具体的な第一歩を整理してみたいと思います。
今一度確認する、オープンデータの目的
オープンデータのような取り組みは、「データを公開すること自体」が目的になってしまいがちです。しかし本来の目的は、行政が持つデータを誰でも利用できる形で提供し、データの再利用を通じて、行政、民間、市民の活動を支えること、そしてその結果として行政の透明性・信頼性を高めることにあります。
実際に日本政府が定めるオープンデータの意義は、オープンデータ基本指針の中で次のように整理されています。
- 国民参加・官民協働の推進を通じた諸課題の解決、経済活性化
- 行政の高度化・効率化
- 透明性・信頼の向上
そして今、この目的に「AIに正しく使われるデータを整備する」という新しい視点が加わり始めています。
AI-Readyの前にある「機械判読可能」という考え方
前回の記事では「AI-Readyなオープンデータ」という言葉を使いましたが、その一歩手前として、以前から言われているのが機械判読可能(Machine-readable)という考え方です。
改めてオープンデータ基本指針を見てみると、日本政府のオープンデータの定義には、次の3点が挙げられています。
- 営利目的、非営利目的を問わず二次利用可能なルールが適用されたもの
- 機械判読に適したもの
- 無償で利用できるもの
「無償で利用できるもの」は説明の必要は無いと思います。
「二次利用可能なルール」については、公開時のライセンスを指しており、多くの場合は日本政府の「公共データ利用規約」や、「CC BY(クリエイティブ・コモンズ・表示)」が使われています。
ここで少し分かりにくいのが「機械判読に適したもの」という部分です。簡単に言えば、「コンピュータ(プログラムやAI)が内容を理解し処理できる状態」のことです。
機械判読の説明には、これまで「5★オープンデータ」という考え方がよく引用されてきました。これは、Webの仕組みを考えたTim Berners-Lee氏が提唱している基準です。
「5★オープンデータ」ではファイル形式でランキングされており、一つ星とされているPDFは、これまでは機械判読性が低かったため、「PDFはオープンデータではない」と考える人もいました。
ただ、技術の進歩は早く、現在ではPDFもプログラムから処理しやすくなり、生成AIもPDFを読むことができるようになってきています。CSVで公開できれば理想的ですが、PDFにオープンライセンスを付けるだけでも、それは立派なオープンデータです。
とはいえ、まったくファイル形式を気にしなくてよいかというと、そうではありません。現時点では、PDFよりExcel、ExcelよりCSVのほうが、生成AIに正しく情報が伝わりやすい傾向があります。
オープンデータを始める段階では、4つ星のRDFや5つ星のLODといった高度な知識は必要ありません。「PDFでも立派なオープンデータ。CSVだとさらに使いやすい」そのくらいの認識で大丈夫です。
では、「機械判読に適した」データは、どうやって作ればよいのでしょうか?
少し専門的な言葉になりますが、整然データという考え方があります。(リンク先はなんだか難しそうですよね)
誤解を恐れずに言えば、
- 1行目はタイトル行(項目名)
- 2行目以降にその値
- セル結合や装飾がない
といった、シンプルな表形式のデータです。
印刷を前提とした装飾(セル結合、空白調整、グラフ挿入など)は、すべて機械判読の妨げになります。そのため、紙向けのExcelをそのままCSVに保存しても、機械判読可能にはなりません。
ここまで、機械判読可能とはどういうことかを説明してきましたが、ここで改めて強調しておきたいのは、「機械判読性が高くないとオープンデータとして認められない」わけではない、という点です。
まずはオープンなライセンスを適用して、自由に使える状態にすることが最初の一歩です。使いやすさ(機械判読可能性を高めること)は、その次のステップで構いません。
データの具体的な整え方や、Excelをどう直せばよいのかといった実践的な内容は、次回の記事で整理したいと思います。まずは、「自由に使えること」と「機械が読める形を意識すること」。その2つを、今日から少しだけ意識してみてください。
何から取り組めば良いか?
まずお伝えしておきたいのは、最初から「全庁のデータを棚卸しする」といった大がかりな取り組みを行う必要はない、ということです。オープンデータは、完璧な整理から始めるものではありません。まずは、自分たちの部署ですでに管理しているデータや、これまでに公開したことのある資料など、手の届くところからで十分です。
どのデータから始めればよいか分からない場合は、デジタル庁が示している自治体標準オープンデータセットを参考にするのが確実です。公共施設、指定緊急避難場所、人口、子育て施設など、すでに多くの自治体で管理されている情報が中心になっています。
詳細はデジタル庁のサイトをご覧いただければと思いますが、分類番号が若いものほど取り組みやすい内容になっていますので、まずは1番から順に確認してみることをお勧めします。
新しくデータを作るのではなく、すでに持っている情報を、少し整えるところから始められます。
また、「まず公開してみて、あとから直す」くらいの感覚で構いません。最初から完璧を目指す必要はありませんし、やってみて違うと感じたら戻せば大丈夫です。オープンデータの場合、もし間違いがあっても、利用している方が教えてくれることも多く、「一緒に育てていく」くらいの気持ちで取り組んでいただければ十分です。
まずは「AIが読むかもしれない」という視点を
オープンデータは、今すぐ成果が出る取り組みではないかもしれません。しかし、将来、AIが行政業務を支援し、政策検討にデータが使われ、説明責任がより求められる時代になったとき、これまでどんな形でデータを整えてきたかが、大きな差になります。
完璧である必要はありませんし、すべてを一度にやる必要もありません。
まずは、自分たちの部署にあるデータを一つ。自由に使える形で公開してみる。少しだけ「AIが読むかもしれない」という視点を持って整えてみる。
オープンデータは、AI時代における行政の備えです。今日の小さな一歩が、数年後の大きな差につながります。まずはできるところから、小さく始めてみていただければと思います。
- BODIK ODCS
BODIK ODCSは無償で利用可能なオープンデータカタログサイトです。まだ利用されていない自治体様で興味がある方は、BODIK ODCSのサイトをご覧ください。 - BODIKコミュニティ
オープンデータを継続的に進めていくためには、自治体同士の情報共有や利用者とのつながりも大切だと考えています。
BODIKコミュニティ(Slack)では、そうした交流の場を少しずつ育てていますので、よろしければご参加ください。
参考サイト
デジタル庁オープンデータ
https://www.digital.go.jp/resources/open_data

