oozie

0熱

1答えて

スパークジョブとハイブSQLスクリプトを順番に実行したい。シェルスクリプトを使ってやっています。これを達成するために推奨される他の方法/ベストプラクティスはありますか？私はウェブ上で検索しましたが、このシナリオに合っていますか？

1熱

1答えて

Oozieスクリプトのすべてのhql呼び出しにhive setコマンドを渡したいと思います。私は多くのhqlを持っており、各hqlにハイブパラメータを渡したいと思います。各hqlファイルにすべてのsetコマンドを書くのに使用しましたが、今はワークフローレベルを維持したいと思っています。私が何か悪いことをしているなら、誰にでも提案することができます。ワークフローの一部を入れました。ジョブを実行する

0熱

1答えて

スパークのハイブは色相では機能しません

色相のインターフェイスを使用してスパークのハイブをトリガーしようとしています。ジョブはコマンドラインから実行すると完全に動作しますが、色相から実行しようとすると例外がスローされます。私はセットを使用して.hqlファイル内のすべてのプロパティを与えるときときI）私は ERROR : Failed to execute spark task, with exception 'org.apache.ha

2熱

1答えて

前日のOozieコーディネータデータセットを構成する方法

前回のコントロールファイルの可用性に基づいてワークフローを実行します。私のディレクトリ内の日付形式は$ {basePath} /YYYYMMdd/00/_Completeです。私の中の_Completeファイルをチェックしたいのです。私の仕事は前日のデータを毎日実行します。私は同様の質問で提供されたオプションを試したが、まだ動作していない。たとえば、私がそれ以下の値で同じ日のデータをテストしている

2熱

1答えて

oozieを使用してファイルがHDFSの場所に存在するかどうかをチェックする方法は？

Oozieを使用して、HDFSの場所にあるファイルが存在するかどうかを確認する方法は？私のHDFSの場所では、test_08_01_2016.csvを毎日午後11時に入手します。このファイルが11.15 PM後に存在するかどうかをチェックします。私はOozieコーディネータージョブを使用してバッチをスケジュールすることができます。しかし、ファイルがHDFSに存在するかどうかを確認するにはどう

0熱

1答えて

パブリックApache（または他の）リポジトリのプルリクエストに関連する問題を作成する方法

オープンソースのOozie初心者ユーザとして、ソースコードのいくつかのラインを改善する必要があることがわかったので、別のOozieリポジトリ修正のためのブランチを作成し、自分のために、その枝に自分の変更をプッシュし、そのためのpull requestをした：（https://github.com/mapr/oozie/pull/1）しかし、githubのドキュメントに基づいて、pull requ

0熱

1答えて

OOZIEで正規表現を使用するには？

特定のHDFSの場所にファイルが存在するかどうかをチェックしたいと思います。我々はFSの助けを借りて、与えられたHDFSの場所に存在するか、いないファイルを確認することができます：ファイル名は、我々は、日付の値がパラメータtodayのようにすなわち得ることができコーディネートジョブの助けを借りてtest_25082016である場合、すなわち存在します私たちの例。 job.prop path=/

0熱

2答えて

oozie - ハイブアクションでのアーカイブファイルの使用

Oozie Hive2アクションでは、圧縮された '.zip'ファイルに存在する '.csv'ファイルからハイブテーブルをロードしようとしています。 Oozie Hiveアクションワークフローを通じて* .zip内のファイルを読み込むために、Hiveアクションは 'archive'タグ要素を提供します。ただ、以下のように「アーカイブ」タグ要素でZipファイルを宣言する必要があり、「アーカイブ」要素

1熱

1答えて

スパークヤーンで1000ジョブが実行中

私はYarnクラスターで1000ジョブをスケジュールしようとしています。私は毎日1000以上のジョブを同時に実行し、リソースを管理するために糸を使いたい。 hdfsから別のカテゴリの1000のファイルのために私はpythonからsparkの送信コマンドを作成して実行しようとしています。しかし、私はドライバメモリを使用して送信するスパークのためにメモリエラーから抜け出しています。スパークヤーンクラ