0
5k、50k、7.5k、75k、10K、100Kなどの単語を持つコーパスがあります。 したがって、tmパッケージを使用してTDMを作成すると、10kや100kなどの用語が個別に抽出されます。ただし、5kと7.5kは別々の用語として抽出されません。 句読点の修正後、 "7.5k"は "75k"の項に該当するかもしれませんが、 "5k"では何が起こっているのか分かります。なぜそれは用語として抽出されないのですか?tmパッケージを使用して強制的に単語を作成する
基本的には、特定の単語を探してキーワードとして抽出する方法があるかどうかを知りたいです。
すべてのポインタが役立ちます!
ありがとうございますJWLM、私はtmがキャプチャできる2つの部分に小数点以下の文字を分割することをお勧めしますか? – shashankp