2017-06-07 4 views
0

Javaで複数の子ノードとエッジをサポートするツリーを作成しました。私は今までこのアプリケーションをスケールアップすることについて心配する必要はありませんでした。ユース・ケースでは、ツリーの100以上のインスタンスが検索および維持される必要があります。Javaベースのツリーのスケーリング

私はこのドメインで非常に最小限の研究を行っています。気になる最初のものはスパークです。私がそれを理解する方法は、Sparkがイベントのウィンドウをバッチ処理することです。ここでは時間が非常に重要です。

私はHadoopのファイルシステムを利用することを考えていました。クラスタ全体でツリーを索引付けし、MapReduceを使用してメンテナンスを行います。

私はよく読んでも構いません。記事、チュートリアル、または推奨事項があれば、それは非常に感謝します。

乾杯

答えて

1

HadoopSpark両方分散処理システムです。 Sparkは、Hadoopシステムの欠点を無効にするように設計されています。

は、hdfsと呼ばれるストレージシステムと、map-reduceと呼ばれる処理アルゴリズムの2つの部分を持っています。 map-reduceの欠点を分析してSparkが開発されました。したがって、RDD(復元型分散データセット)は、メモリ分散処理のためにsparkに導入されました。詳細はApache SparkJacek

のように表示されます。Sparkの強力なhadoopファイルシステムも使用できます。

あなたがsparkを選択した場合は、scalaまたはpythonまたはRで関数型プログラミングを学ぶでしょう。 Hadoopは、従わなければならない複雑なビットであるmap-reduceアルゴリズムに依存します。

そしてTree in scalaためapi sがあるとuderwayあまりにも例thisthis

私はこれが役に立つことを願うための作品があります。

関連する問題