2017-07-17 9 views
0

数字と英数字のセットが非常に多く、一般的な単語やフレーズをPython 2.7で見つけることができます。大きなデータセットでのフレーズ/マルチワードとカウントの一致

データの例ですが、私の実際のデータに近いものはありませんが、これはそれを表す良い仕事です。

'this is a test of the hosting', 
'test is a test', 
'we have more tests to run before we can trust it', 
'if it true, can trust it', 
'tom is on time for ounce', 
'what do you mean tom is out sick again' 

私は

'is' x 5 
'test' x 3 
'is a test' x 2 
'is a' x2 
'we' x2 
'trust it' x 2 
'tom' x 2 
..etc.. 

を探していますマッチングの種類は次のとおり、このための共通のlibにはありますか私は1つを記述する必要がありますか?私はブルートフォースでこれを行うことができますが、私の大きなファイルの中には何年もかかることがあります。私はこれが一般的な問題であり、いくつかのスマートなクッキーが解決策を見つけたと仮定します。これは旅行のセールスマンではないことを願っています。

+0

ユニグラム、バイグラム、トリグラムなどを探していますか? – Gingerbread

+0

私はunigram、bigram、trigramとは何を意味するのか分かりません...しかし、クイックルックアップは私が単語レベルbigram/trigram/etc ...とマッチングを考えています。私が思う4つのマッチセットのどれかは、私が今まで扱いたいと思う最大のセットです。 – JustBroken

答えて

0

あなたはunigram、bigram、trigram countsを探していると思います。あなたは、PythonでNLTKライブラリを使って、あなたが望むことをすることができます。

また、linkをチェックしてください。

+0

あなたのユニグラム、bigram、trigramを見て、「python unigram bigram trigram」の検索をしたら、私はそれについてたくさん見つけました。ありがとうございました! – JustBroken

+0

@JustBroken:いつでも:)しばしば、ほんの少しのヒントがあなたの望むものを手に入れます! – Gingerbread

関連する問題