2012-03-10 8 views

答えて

1

MergeSortは素晴らしい/簡単なものです。 generating word counts for all words in a fileと一緒に行くこともできます。良いデータソースは、公開ドメイン書籍のProject Gutenbergライブラリです(これらのうちのいくつかを常に連結することができます)。

単語の数と同じように進んでいるだけのものが必要な場合は、非常に単純な分散型スペルチェッカーを書くことができます。 Peter Norvigは、Pythonで書かれたスペルチェッカーの素晴らしいsimple demonstrationです。良い方法は、このアルゴリズムを分散してファイルを操作するように拡張することです。

+0

私はコースのレベル/期待をよりよく理解することなく、どんなアイデアも評価するのをためらっています。しかし、私は、シンプルで簡単に達成できる最終プロジェクトは、スペルチェッカーの分散バージョンと考えています。 1つは、HDFSでソートされている場合はもっと大きなトレーニングセットを使用でき、2つの場合は、それぞれの単語を独立して考えることができるため、非常に高速な処理が可能です(この単純なアルゴリズムの場合)。最後に、それは達成していることと実装されている方法の両方で、単語数やマージソートよりもはるかに上のステップです。 – smessing

+0

ありがとうございました! :) –

+0

問題ありません!また、下部にリストされているNorvigのアルゴリズムのJava実装があることに気がつきましたが、ここでは始めることができます。 – smessing

1

あなたはいくつかのプロジェクトhere

小規模のHadoopプロジェクトのいくつかの素晴らしいと興味深い例がありますがあります。すべてが非常によく記述されています。さらに、ソースコードと必要なすべての理論を見つけることができます。