2016-08-30 7 views

答えて

0

私はそうだと思っています(ただし、余分な前処理が必要な場合があります)。 LibsvmとLiblinearはどちらも言語に依存しません。 LibShortTextはLibLinearの上に構築されているので、すべての言語でも動作するはずです。

this紙によれば、それは特徴を抽出するための内部前処理方法を有する。

libshorttext.converter: For given short texts, LibShortText follows 
the bag-of-word model to generate features. Users apply procedures in 
this library to pre-process short texts by tokenization, stemming 
(optional), and stop-word removal (optional). The library also allows 
users to choose between unigram and bigram features. 

しかし、そのステミングとストップワードの削除は英語のみをサポートしているようです。したがって、英語以外のテキスト用に優れた機能を抽出したい場合は、たとえばnltkを使用して独自の前処理方法を使用することができます。

関連する問題