Drafts

@cm3 の草稿置場 / 少々Wikiっぽく使っているので中身は適宜追記修正されます。

英米文学とかやってる人のコーパス

追記したい

言語処理で扱うコーパスと被っている部分もあり、そうでない部分もあり。

Corpus of Contemporary American English (COCA)
Corpus of Global Web-Based English こういうインタフェースが必要とされるのが文系的。
Yoko Iyeiri's most up-to-date homepage （家入葉子）いろいろ情報を紹介してくれたＷさんの研究室。コーパスもいろいろ公開されている。

基本はコンコーダンスを調べる

コーパス - Wikipediaには「自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報（品詞、統語構造など）が付与される」と書いてあるが、英米文学とかコーパス言語学とかでは、ちょっと色合いが違う。特に構造的情報は最低限で、コンコーダンスを調べるのが多い。今だとWeblio でも「concordance」の共起表現(1語右で並び替え) - Weblio英語共起表現検索みたいなことができるようになり、かなりお手軽になったが、研究利用でのコーパスについては、神戸大学石川慎一郎研究室のページによくまとめられている。

あと、先の Wikipedia 記事に「日本でコーパスを一般に広く知らしめたのは、英語学者の投野由紀夫である。」と書いてあって、教材とコーパスとか投野先生の文書を読むこともその方面のコーパスの理解に繋がるかも。

その他参考:

補助資料1 コーパス言語学についてそう、コーパス言語学の歴史的にはチョムスキーを語らずには居られない。