地域研究の論文に出てくる表は多種多様だが、例えば以下のようなものがある。
これを既製のツールであるPythonライブラリのpdftablesで抽出すると*1
表 2 | タイの蒸気機関車の使用状況 (1943 年) | (単位:両) | ||||||
用 | 途 | 大型 | 209 型 | E 型 | C・D 型 | B 型 | 小型 | 計 |
旅客 | 28 | 2 | 8 | 1 | − | − | 39 | |
貨物 | 19 | 1 | 2 | − | − | − | 22 | |
タイ | 保線・薪輸送 | 5 | 3 | 10 | 1 | − | − | 19 |
入換 | 1 | 1 | 5 | − | 1 | 8 | 16 | |
計 | 53 | 7 | 25 | 2 | 1 | 8 | 96 | |
軍用列車 | 25 | − | 7 | − | − | − | 32 | |
日本 | 泰緬鉄道建設 | − | − | − | 2 | 3 | − | 5 |
計 | 25 | − | 7 | 2 | 3 | − | 37 | |
ボイラー洗浄 | 10 | 2 | 4 | − | − | − | 16 | |
修理中 | 工場入場 | 33 | 4 | 6 | 1 | − | 3 | 47 |
計 | 43 | 6 | 10 | 1 | − | 3 | 63 | |
総 | 計 | 121 | 13 | 42 | 5 | 4 | 11 | 196 |
出所:[NA Bo Ko Sungsut 2. 4. 1/21] より筆者作成。 | ||||||||
注:機関車の分類は以下の通りである。大型:209 型〜B 型以外のテンダー機関車,209 型:車輪配置 | ||||||||
2-6-0 型 (ジョージ・イゲストフ),E 型:4-6-0 型,D 型:2-4-2 型,C 型:2-6-0 型 (クラウス), | ||||||||
B 型:2-4-0 型,小型:タンク式機関車。 |
のように抽出できる。なかなか精度は高いが細かい表構造は崩れてしまうので、人手での整形は必要そうである。
一方、表に特化していないpdffiguresは、サイトの図で示されているように、図や表の区域とキャプションを取得できるようになっているので、検索程度の活用ならばこちらの方が便利だろう。
地域研究論文に適用するなら pdffigures の方
情報学の論文の実験結果のように、多くの論文で共通する部分があるのならば、表の中身まで精査して繋ぎ合わせてみると、全体で面白い知識が発見できる可能性もある。しかし、地域論文という非常に幅広い分野の論文数千程度から抜き出した表では、お互いの関連が疎になってしまい、網羅的に表の解析をしても面白い知見を生まないと考えられる。それよりも、論文の後ろにある生のデータを共有したり、すでに共有化されているそういうデータと論文内の知識を関連付けることで、論文→より幅広いデータへのアクセス/データ→活用例としての論文 という経路を提供することの方が意義があると考えられる。
*1:実際はこれを裏で使っていると思われるhttps://pdftables.com/を利用した。