テキストファイルを解析し、単語の数を数えて降順にソートするプログラムを作成しました。これは素晴らしいですが、私は別のレベルを取り上げたいと思います。単語のグループで一致するフレーズを見つける
私は繰り返されるテキスト内の単語フレーズを見つけることができるようにしたいと思います。キー私はちょうどソートザ・キーと出力とに基づいている
その後、hash:
"word":3,
"test":12,
.....
:
私の現在のアルゴリズムでは、最初にその単語とハッシュテーブルを作成し、この値のようにカウント言葉にアップしたテキストを分割することです出来ました。
Happy Birthday to You
Happy Birthday to You
Happy Birthday Dear (name)
Happy Birthday to You.
From good friends and true,
From old friends and new,
May good luck go with you,
And happiness too.
Alternative ending:
How old are you?
How old are you?
How old, How old
How old are you?
私はワードカウントをうまく得ることができますが、私はすべてのフレーズにマッチしたい場合:
だが、私はこの幸せな誕生日の歌を持っているとしましょうか?
例えば、この6ワードがフレーズが二回一致すると言える。
happy birthday to you happy birthday
対5ワードフレーズ一致:
birthday to you happy birthday
happy birthday to you happy
一部4ワードフレーズ
how old are you
happy birthday to you
to you happy birthday
how old how old
birthday to you happy
と一致します
など、一致する単語フレーズは2つまでです。
私は、行間でもフレーズ全体を照合することにもっと関心があります。なぜなら、今後の処理のために出力を調べなければならないからです。
私はこの目標を達成するためにどのようなアルゴリズムを使用できますか?