(まだやってないので記事の中身がありません、来週までにしなきゃいけない仕事の一部なのでそのうち加筆されます。)
TODO
下の Gensim のを試してみる、本文のコメント欄も参考に
- Gensim は基本 Python2 用だったので、GensimPy3を使って小説家になろうのトピックモデルを解析 - Qiitaを参考に GensimPy3 を使った。
- screen 使ってやるべきだった、コンパイルくそ時間かかるとかなると他のタスクに影響する
- そもそも virtualenv すら入れていない環境だった
- NumPy, SciPy インストール
git clone https://github.com/samantp/gensimPy3.git- gensimPy3が古くなっている一方、 gensim本家が Python3 系に正式対応しているので、
pip install gensim
で良い。 - python setup.py test
- python setup.py install
- GensimPy3を使って小説家になろうのトピックモデルを解析 - Qiitaに書いてある通りのエラーが出たけど一応動いているっぽい。(ここらへんで気持ち悪くなって、やっぱり自分で書いたコードを使おうかと思ったけどぐっと我慢w)
- gensimPy3が古くなっている一方、 gensim本家が Python3 系に正式対応しているので、
- topic_model_in_narou.py を動かしてみる
- sudo apt-get install libxml2-dev libxslt1-dev しないと、pyquery のインストールに失敗する
- 成功
- screen 使ってやるべきだった、コンパイルくそ時間かかるとかなると他のタスクに影響する
- Gensim は基本 Python2 用だったので、GensimPy3を使って小説家になろうのトピックモデルを解析 - Qiitaを参考に GensimPy3 を使った。
それぞれ6時間とかかかってたらコードなおすのにも時間かかるので、サンプルデータを作るスクリプトも書く
マレー語に適用して分類を試してみる。
lda - Topic models evaluation in Gensim - Stack Overflow log_perplexityを参考にトピック数とか調整する。gensim - Google グループは参考になる。それ見てると LdaModel のイテレーションが少なすぎと言われたので増やしてみているが、その効果を確かめたりしたい。Perplexity in gensim - Google グループみたいにperplexityの推移を可視化するとか。
参考文献
LSIやLDAを手軽に試せるGensimを使った自然言語処理入門 - SELECT * FROM life;
日本語版用に gensimに日本語Wikipediaを取り込むためのスクリプト を作られたの素晴らしいですね。僕も他の言語版用にちゃんと作ったりしてみよう。
Wikipedia のための Latent Dirichlet Allocation
小松さんのYANS資料