BODIK Utility(6) PDF表変換

ISITでは、自治体様がオープンデータを公開する際の助けになるようなツール群(BODIK Utility)を開発し、公開しています。皆様のオープンデータ公開業務にお役立てください。

PDF表変換

オープンデータを公開したいけど、PDFしかない。これでいいのかな?とお困りではありませんか?

このようなときは「PDF表変換」を使ってみませんか?

PDF表変換は「テキストベースのPDFから表の部分を抜き出し、CSVに変換してくれる」ツールです。

特徴

PDF表変換は次のような機能を提供します。

  • テキストベースのPDFの中から表部分を抜き出し、CSVに変換する
    • スキャンして作成したような画像のPDFからはCSVに変換することができません
  • PDFの中に複数の表がある場合は、別々の表として抜き出す
  • 変換した結果を文字コード「UTF-8」のCSVファイルとしてダウンロードする

注意点

  • プログラムで変換するため、うまく認識できないケースがあります
    • セル内改行、セルの結合などがあると、うまく認識できない場合がある
  • PDFのページ数が多いと処理に時間がかかります
  • PDFのページや表の数が多いとエラーになる可能性があります

残念ながら正しく認識できなかった場合は、「すべてのデータを再入力するよりは楽ができた」という優しい気持ちで、ダウンロードしたCSVを手作業で修正してください。

PDF表変換の使い方

PDF表変換は以下のリンクからアクセスし、ご利用ください。

PDF表変換のURL:https://utility.bodik.jp/pdftable

リンクを開くと、このような画面が表示されます。

使い方は簡単です。

  1. テキストベースのPDFを指定してください。
  2. PDFを指定する方法は2つあります
    • URLを指定する
      1. 例えば、ODCSに登録されているリソースのリンクをコピーし、「ファイルのURLを指定する」に貼り付ける
      2. 「URL」ボタンを押す
    • ローカルのファイルを指定する
      1. 「PDFファイル」ボタンを押す
      2. ローカルのPDFファイルを選択する
  3. 指定したPDFファイルをサーバーで解析し、表部分を抜き出します
    • PDFのページ数が多いと時間がかかります。しばらくお待ちください。
  4. 解析した結果をグリッドに表示します
    • 複数の表がある場合、矢印ボタンでページを切り替えます
    • 表の中でセルが結合されていると想定通りに変換できない場合があります
      • その場合は、CSVをダウンロードしたあと、Excel等で修正してください
    • 「ダウンロード」ボタンを押すと、グリッドに表示している内容をCSVとしてダウンロードします。
  5. 解析に失敗するとエラーメッセージ「CSVに変換できませんでした」を表示します
    • スクリーンキャプチャーなどで作られた表の部分が画像のPDFでは、CSVに変換できません。

実際に、PDFを変換してみましょう。

「佐世保市の予防接種実施医療機関一覧」のPDFがあったので、これで試してみます。PDFの1ページ目はこんな感じでした。

図1.サンプルPDF

このPDFをPDF表変換で読み取ると、このような画面になります。

図2.最初の表

列タイトルのない第一列が認識できていないようですが、その他の部分はうまく取れています。

このPDFには、5つの表があるようです。「>」を押して、最後のページまで見てみましょう。

図3.最後の表

必要なページをダウンロードして、CSVをご利用ください。

ひらの