概要
Luceneについてるインドネシア語用のStemmer使って、必要に応じて改変したい。stopwordsリストだけ変えるとかは簡単そう。
マレー語のStemmer
- STEMMING ALGORITHM IN INFORMATION RETRIEVAL FOR BAHASA MELAYU WITH LOCAL DICTIONARY LOOKUP 2005年の博士論文。前半しか公開されていない。
- SIMPLE RULES MALAY STEMMER丁寧に読んだが詳しいアルゴリズムが書いていない。7つの操作をどう適用するかの比較(しかも大した違いが無い)のみ書かれている。
- Rules Frequency Order Stemmer for Malay Language 未読
- Malay Semantic Text Processing Engine 未読。eKnow2014。
- Muhamad Taufik Abdullah - Google Scholar Citations マレー語自然言語処理関連でいくつかヒットした人。
- Tokenizer for the Malay language using pattern matching 未読
- Jawi Stemmer: Evaluation of Stemmers Based on Strength and Accuracy Jawiを直接扱える。今回は使わないがこんな論文もあるんだ!という驚き。
インドネシア語のStemmer
Apache LuceneのSubversionレポから引っ張ってきて、lucene_trunk/lucene/analysis/common/src/java/org/apache/lucene/analysis/id/IndonesianStemmer.java
を確かめたけれど、特にGitHub上のものと違いは無く、
* Stems Indonesian words with the algorithm presented in: * <i>A Study of Stemming Effects on Information Retrieval in * Bahasa Indonesia</i>, Fadillah Z Tala. * http://www.illc.uva.nl/Publications/ResearchReports/MoL-2003-02.text.pdf
となっていた。
その他参考:
- lucene-solr/TestIndonesianStemmer.java at trunk · apache/lucene-solr
- lucene-solr/stopwords.txt at trunk · apache/lucene-solr
- lucene-solr/lucene/analysis/common/src/java/org/apache/lucene/analysis/id at trunk · apache/lucene-solr
- org.apache.lucene.analysis.id (Lucene 5.0.0 API)
- apache - looking for indonesian language stemmer - Stack Overflow
- Jelita Asian et al. "Stemming Indonesian", 2005.
- Mirna Adriani et al. "Stemming Indonesian: A confix-stripping approach", 2007