私は、txtファイルのすべての単語の出現を数える必要があるプロジェクトに取り組んでいます。 は例えば、私はこのようなテキストファイルを持っている:NLP for java、どのツールキットを使用しますか?
シルバーレイクは、IPO候補に探し何業績によって押しつぶさ 3会社:アップル、シーラス・ロジック社、IBM IBMのパルミサーノ:あなたが100であることを取得する方法-Year Old Company
上記の3つの文がファイルにある場合、すべての単語の出現を計算したいと思います。ここでは、会社と会社は同じ単語「会社」(小文字)とみなす必要があるため、「会社」という単語の合計発生数は2です。
「NLPツールキット」は、 「家族」と「家族」は実際には同じ単語「家族」に由来していますか?
ナイーブベイズのトレーニングをさらに進めるために、すべての単語の出現を数えますので、各単語の正確な出現数を得ることは非常に重要です。
有用な場合があります:http://weblogs.java.net/blog/tomwhite/archive/2006/07/pluralization.html –
有用な用語:家族や家族が同じ*語彙素に属していることを伝えるツール*は、* stemmer *と呼ばれます。ワード数はユニグラム周波数とも呼ばれます。文書を単語数の特徴ベクトルとして扱うモデルをbag * of-words *と呼びます。 – cyborg
@cyborgありがとうございました。 –