幹( 'リンゴ')= 'リンゴ'
幹( 'リンゴ')= 'APPL'
幹( 'APPL')= 'APPL'
なぜPorter Stemmerは、再び元に戻すことができる文字列を生成しますか?
は、これは欠陥ではありませんステミングアルゴリズム?
より多くのあなたが使用しているアルゴリズムの実装のバグのようになっていることを
幹( 'リンゴ')= 'リンゴ'
幹( 'リンゴ')= 'APPL'
幹( 'APPL')= 'APPL'
なぜPorter Stemmerは、再び元に戻すことができる文字列を生成しますか?
は、これは欠陥ではありませんステミングアルゴリズム?
より多くのあなたが使用しているアルゴリズムの実装のバグのようになっていることを
(これはPorter Stemming Algorithmを使用しています)。
the original algorithmの手順に従うと(リンク先のページから)、「リンゴ」の最後の「s」がステップ1aで削除され、「e」がステップ5aで削除されるため、「リンゴ"も" appl "です。
ここで辞書サポートを備えたポッターステミングアルゴリズムの実装が見つかりましたhttp://preciselyconcise.com/apis_and_installations/smart_stemmer.php。
このAPIは使い方が簡単で、スペルミスのために間違った単語が修正されました。私は、このAPIを使用することをお勧めします。