言語処理で扱うコーパスと被っている部分もあり、そうでない部分もあり。
- Corpus of Contemporary American English (COCA)
- Corpus of Global Web-Based English こういうインタフェースが必要とされるのが文系的。
- Yoko Iyeiri's most up-to-date homepage (家入葉子) いろいろ情報を紹介してくれたWさんの研究室。コーパスもいろいろ公開されている。
基本はコンコーダンスを調べる
コーパス - Wikipediaには「自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される」と書いてあるが、英米文学とかコーパス言語学とかでは、ちょっと色合いが違う。特に構造的情報は最低限で、コンコーダンスを調べるのが多い。今だとWeblio でも 「concordance」の共起表現(1語右で並び替え) - Weblio英語共起表現検索 みたいなことができるようになり、かなりお手軽になったが、研究利用でのコーパスについては、神戸大学石川慎一郎研究室のページによくまとめられている。
あと、先の Wikipedia 記事に「日本でコーパスを一般に広く知らしめたのは、英語学者の投野由紀夫である。」と書いてあって、教材とコーパスとか投野先生の文書を読むこともその方面のコーパスの理解に繋がるかも。
その他参考:
- 補助資料1 コーパス言語学について そう、コーパス言語学の歴史的にはチョムスキーを語らずには居られない。