私はいくつかの話題を見つけたいと思っています。Hadoopスタータープロジェクトの提案
2
A
答えて
1
MergeSortは素晴らしい/簡単なものです。 generating word counts for all words in a fileと一緒に行くこともできます。良いデータソースは、公開ドメイン書籍のProject Gutenbergライブラリです(これらのうちのいくつかを常に連結することができます)。
単語の数と同じように進んでいるだけのものが必要な場合は、非常に単純な分散型スペルチェッカーを書くことができます。 Peter Norvigは、Pythonで書かれたスペルチェッカーの素晴らしいsimple demonstrationです。良い方法は、このアルゴリズムを分散してファイルを操作するように拡張することです。
1
あなたはいくつかのプロジェクトhere
小規模のHadoopプロジェクトのいくつかの素晴らしいと興味深い例がありますがあります。すべてが非常によく記述されています。さらに、ソースコードと必要なすべての理論を見つけることができます。
関連する問題
- 1. hadoopアーキテクチャを提案する
- 2. 私のhadoopアーキテクチャの改善提案
- 3. スプリング提供のスタータープロジェクトの違い
- 4. スレッドとデータベースの提案の提案
- 5. 提案
- 6. カレンダーアプリの提案
- 7. コードタスクスケジューラの提案
- 8. メモリアロケータの提案
- 9. アンドロイドアプリケーションローカリゼーションの提案
- 10. クラスドキュメントの提案
- 11. クリエイティブパターンの提案
- 12. ワークフローエンジンの提案
- 13. スピードアップオートコンプリートの提案
- 14. デプロイメントキットの提案
- 15. jsonの提案
- 16. サービスレイヤの提案
- 17. CMSの提案
- 18. ブロードキャストレシーバの提案
- 19. データビジュアライゼーションライブラリの提案
- 20. 提案GWTハイスケールアプリケーションサーバ
- 21. ElasticSearch `contains`提案
- 22. 提案/パースライブラリ
- 23. ラムダ提案が
- 24. React Onmouseover提案
- 25. SignalRハブ提案
- 26. アクションスクリプト2提案
- 27. DBデザイン - 提案
- 28. Facebookと提案
- 29. Kubernetesボリュームマップ提案
- 30. Codemirrorオートコンプリートグローバル提案
私はコースのレベル/期待をよりよく理解することなく、どんなアイデアも評価するのをためらっています。しかし、私は、シンプルで簡単に達成できる最終プロジェクトは、スペルチェッカーの分散バージョンと考えています。 1つは、HDFSでソートされている場合はもっと大きなトレーニングセットを使用でき、2つの場合は、それぞれの単語を独立して考えることができるため、非常に高速な処理が可能です(この単純なアルゴリズムの場合)。最後に、それは達成していることと実装されている方法の両方で、単語数やマージソートよりもはるかに上のステップです。 – smessing
ありがとうございました! :) –
問題ありません!また、下部にリストされているNorvigのアルゴリズムのJava実装があることに気がつきましたが、ここでは始めることができます。 – smessing