Drafts

@cm3 の草稿置場 / 少々Wikiっぽく使っているので中身は適宜追記修正されます。

PDF から表データを抜き出す

地域研究の論文に出てくる表は多種多様だが、例えば以下のようなものがある。

f:id:cm3ak:20151029164236p:plain

これを既製のツールであるPythonライブラリのpdftablesで抽出すると*1

表 2タイの蒸気機関車の使用状況 (1943 年)(単位:両)
大型209 型E 型C・D 型B 型小型
旅客2828139
貨物191222
タイ保線・薪輸送5310119
入換1151816
5372521896
軍用列車25732
日本泰緬鉄道建設235
2572337
ボイラー洗浄102416
修理中工場入場33461347
436101363
12113425411196
出所:[NA Bo Ko Sungsut 2. 4. 1/21] より筆者作成。
注:機関車の分類は以下の通りである。大型:209 型〜B 型以外のテンダー機関車,209 型:車輪配置
2-6-0 型 (ジョージ・イゲストフ),E 型:4-6-0 型,D 型:2-4-2 型,C 型:2-6-0 型 (クラウス),
B 型:2-4-0 型,小型:タンク式機関車。

のように抽出できる。なかなか精度は高いが細かい表構造は崩れてしまうので、人手での整形は必要そうである。

一方、表に特化していないpdffiguresは、サイトの図で示されているように、図や表の区域とキャプションを取得できるようになっているので、検索程度の活用ならばこちらの方が便利だろう。

f:id:cm3ak:20151029164622p:plain

地域研究論文に適用するなら pdffigures の方

情報学の論文の実験結果のように、多くの論文で共通する部分があるのならば、表の中身まで精査して繋ぎ合わせてみると、全体で面白い知識が発見できる可能性もある。しかし、地域論文という非常に幅広い分野の論文数千程度から抜き出した表では、お互いの関連が疎になってしまい、網羅的に表の解析をしても面白い知見を生まないと考えられる。それよりも、論文の後ろにある生のデータを共有したり、すでに共有化されているそういうデータと論文内の知識を関連付けることで、論文→より幅広いデータへのアクセス/データ→活用例としての論文 という経路を提供することの方が意義があると考えられる。

*1:実際はこれを裏で使っていると思われるhttps://pdftables.com/を利用した。