2016-08-25 7 views
0

hadoopでデータパイプラインを作成する必要があります。私は、データのインポート、エクスポート、データを整理するためのスクリプトを用意しており、これをパイプラインで設定する必要があります。データパイプラインを作成するためのさまざまなツール

私はOozieをデータのインポートとエクスポートのスケジュールに使用していましたが、データクリーニングプロセスのためにRスクリプトを統合する必要があります。

私はファルコンが同じもののために使用されるのを見ます。

  1. falcon in clouderaのインストール方法を教えてください。
  2. hadoopでデータパイプラインを作成するための他のツールはありますか?
+0

oozieのシェル・アクションからRを呼び出すことができます。 – abhiieor

+0

コードをあなたが必要な場合は、 'エクスポートエンジン= $ 1 輸出hive_db = $ 2 輸出RCODE = NeighborGroupingState.R Rscript --vanilla $ {RCODE} $ 1 $ 2 --hiveconf tez.credentials.path = $ {} HADOOP_TOKEN_FILE_LOCATION --hiveconf mapreduce.job.credentials.binary = $ {HADOOP_TOKEN_FILE_LOCATION} ' – abhiieor

答えて

1

2)私はホートンワークスからnifiに答えるように誘惑されています。このpost on linkedinは大きく成長しており、それはoozieを置き換えるのに非常に近いためです。私がこの答えを書いているとき、怠け者とnifiの違いは、彼らが走っている場所です:外側のクラスターにnifiとハープに入っています。

関連する問題