ハドープ開始ポイント

-2

毎月私はCSVファイルを受け取ります.2GBサイズです。私はこのファイルをMySqlデータベースのテーブルにインポートしますが、これはほぼ即時です。ハドープ開始ポイント

PHPを使用してこのテーブルにクエリを行い、このテーブルのデータをフィルタ処理し、関連するデータをいくつかの他のテーブルに書き出します。これは数日間かかるため、すべてのクエリが最適化されます。

このデータをHadoopに移動したいが、何を出発点にすべきか理解していない。私はHadoopを勉強していますが、これはSqoopを使って行うことができますが、このデータをHadoopに移行する方法についてはどこから始めるべきか、まだ分かりません。

2017-05-03 phpMax

これをHDFSに移行する目的は何ですか？ – franklinsijo

サイズは日々大きくなり、処理には数日かかる。 – phpMax

Apache Sparkは、使い始めるのが簡単なので、Pythonで使用できます。 Sparkの使用は過度のものかもしれませんが、スピードとスケーラビリティを考慮すると、これにいくらかの努力を加えることに害はありません。

SparkがアクセスするAPI（Hive/Hbaseなど）を直接提供する他のデータベースに切り替えることができます。これはオプションですが、余分なコードがなくても、変更したくない場合にのみMySqlにアクセスできます。

全体的なデザインは、次のように次のようになります。

システムます/ MySQLを

2017-05-04 07:55:59 code

ありがとう、完璧！ – phpMax

答えて