2017-01-20 11 views
0

5k、50k、7.5k、75k、10K、100Kなどの単語を持つコーパスがあります。 したがって、tmパッケージを使用してTDMを作成すると、10kや100kなどの用語が個別に抽出されます。ただし、5kと7.5kは別々の用語として抽出されません。 句読点の修正後、 "7.5k"は "75k"の項に該当するかもしれませんが、 "5k"では何が起こっているのか分かります。なぜそれは用語として抽出されないのですか?tmパッケージを使用して強制的に単語を作成する

基本的には、特定の単語を探してキーワードとして抽出する方法があるかどうかを知りたいです。

すべてのポインタが役立ちます!

答えて

0

あなたは句読点で単語を壊していますか?すなわち、 'です。単語分割文字?そうであれば、 '7.5k'の分割は( '7'、 '5k')であり、2番目のものは '5k'と一致します。

+0

ありがとうございますJWLM、私はtmがキャプチャできる2つの部分に小数点以下の文字を分割することをお勧めしますか? – shashankp

関連する問題