Drafts

@cm3 の草稿置場 / 少々Wikiっぽく使っているので中身は適宜追記修正されます。

マレー・インドネシア語のStemmer

概要

Luceneについてるインドネシア語用のStemmer使って、必要に応じて改変したい。stopwordsリストだけ変えるとかは簡単そう。

マレー語のStemmer

インドネシア語のStemmer

Apache LuceneSubversionレポから引っ張ってきて、lucene_trunk/lucene/analysis/common/src/java/org/apache/lucene/analysis/id/IndonesianStemmer.javaを確かめたけれど、特にGitHub上のものと違いは無く、

 * Stems Indonesian words with the algorithm presented in:
 * <i>A Study of Stemming Effects on Information Retrieval in 
 * Bahasa Indonesia</i>, Fadillah Z Tala.
 * http://www.illc.uva.nl/Publications/ResearchReports/MoL-2003-02.text.pdf

となっていた。

その他参考: