2017-05-03 5 views
-2

毎月私はCSVファイルを受け取ります.2GBサイズです。私はこのファイルをMySqlデータベースのテーブルにインポートしますが、これはほぼ即時です。ハドープ開始ポイント

PHPを使用してこのテーブルにクエリを行い、このテーブルのデータをフィルタ処理し、関連するデータをいくつかの他のテーブルに書き出します。これは数日間かかるため、すべてのクエリが最適化されます。

このデータをHadoopに移動したいが、何を出発点にすべきか理解していない。私はHadoopを勉強していますが、これはSqoopを使って行うことができますが、このデータをHadoopに移行する方法についてはどこから始めるべきか、まだ分かりません。

+0

これをHDFSに移行する目的は何ですか? – franklinsijo

+0

サイズは日々大きくなり、処理には数日かかる。 – phpMax

答えて

1

Apache Sparkは、使い始めるのが簡単なので、Pythonで使用できます。 Sparkの使用は過度のものかもしれませんが、スピードとスケーラビリティを考慮すると、これにいくらかの努力を加えることに害はありません。

SparkがアクセスするAPI(Hive/Hbaseなど)を直接提供する他のデータベースに切り替えることができます。これはオプションですが、余分なコードがなくても、変更したくない場合にのみMySqlにアクセスできます。

全体的なデザインは、次のように次のようになります。

  • あなたの毎月のCSVファイルには、HDFS上の既知の場所になります。
  • スパークアプリケーションは、このファイルを読み取る任意の変換を実行は、MySQL(または任意の他の記憶装置)に結果を書き込む関与

システムます/ MySQLを

  • HDFS
  • スパーク
  • 他のストレージ
  • スケーラブルにするためのオプションのクラスタ
+0

ありがとう、完璧! – phpMax

関連する問題