2016-04-14 8 views
1

を使用してApache FLINKのHAクラスタへの流れを展開することはできませんは、私は問題なく(1 JobManagerといくつかのTaskManagers付き)のApache FLINKのインストールをスタンドアロンのフローを展開することができFLINK CLI

------------------------------------------------------------ 
The program finished with the following exception: 

org.apache.flink.client.program.ProgramInvocationException: The program execution failed: JobManager did not respond within 60000 milliseconds 
    at org.apache.flink.client.program.Client.runDetached(Client.java:406) 
    at org.apache.flink.client.program.Client.runDetached(Client.java:366) 
    at org.apache.flink.client.program.DetachedEnvironment.finalizeExecute(DetachedEnvironment.java:75) 
    at org.apache.flink.client.program.Client.runDetached(Client.java:278) 
    at org.apache.flink.client.CliFrontend.executeProgramDetached(CliFrontend.java:844) 
    at org.apache.flink.client.CliFrontend.run(CliFrontend.java:330) 
    at org.apache.flink.client.CliFrontend.parseParameters(CliFrontend.java:1189) 
    at org.apache.flink.client.CliFrontend.main(CliFrontend.java:1239) 
Caused by: org.apache.flink.runtime.client.JobTimeoutException: JobManager did not respond within 60000 milliseconds 
    at org.apache.flink.runtime.client.JobClient.submitJobDetached(JobClient.java:221) 
    at org.apache.flink.client.program.Client.runDetached(Client.java:403) 
    ... 7 more 
Caused by: java.util.concurrent.TimeoutException: Futures timed out after [60000 milliseconds] 
    at scala.concurrent.impl.Promise$DefaultPromise.ready(Promise.scala:219) 
    at scala.concurrent.impl.Promise$DefaultPromise.result(Promise.scala:223) 
    at scala.concurrent.Await$$anonfun$result$1.apply(package.scala:190) 
    at scala.concurrent.BlockContext$DefaultBlockContext$.blockOn(BlockContext.scala:53) 
    at scala.concurrent.Await$.result(package.scala:190) 
    at scala.concurrent.Await.result(package.scala) 
    at org.apache.flink.runtime.client.JobClient.submitJobDetached(JobClient.java:218) 
    ... 8 more 

アクティブなジョブマネージャは、ログインするために、次のエラーを記述します:

2016-04-14 13:54:44,160 WARN akka.remote.ReliableDeliverySupervisor      - Association with remote system [akka.tcp://[email protected]:62784] has failed, address is now gated for [5000] ms. Reason is: [Disassociated]. 
2016-04-14 13:54:46,299 WARN org.apache.flink.runtime.jobmanager.JobManager    - Discard message LeaderSessionMessage(null,TriggerSavepoint(5de582462f334caee4733c60c6d69fd7)) because the expected leader session ID Some(72630119-fd0a-40e7-8372-45c93781e99f) did not equal the received leader session ID None. 
を同じコマンドおよびスタンドアロンHAクラスタに、このコマンド昇給エラーを展開

このようなエラーの原因は何か分かりません。

追加情報が必要な場合はお知らせください。

P.S.

Flink Dashboardからの展開は、スタンドアロンHAクラスタでうまく動作します。このような問題は、Flink CLIを使用して展開する場合にのみ発生します。

更新

私は飼育係、ディスクと再配備FLINKスタンドアロンHAクラスタ上でFLINKで使用される明確なディレクトリをクリアします。次に、私はフローの使用bin/flink runコマンドを実行しようとします。 JobManagerがわかるように、問題については1行しか書いていません(flink-jobmanager-0-example-app-1.stag.local.logを参照)。

すべてJobManagersとTaskManagersは同じflink-conf.yamlを使用します。

jobmanager.heap.mb: 1024 
jobmanager.web.port: 8081 

taskmanager.data.port: 6121 
taskmanager.heap.mb: 2048 
taskmanager.numberOfTaskSlots: 4 
taskmanager.memory.preallocate: false 
taskmanager.tmp.dirs: /flink/data/task_manager 

blob.server.port: 6130 
blob.storage.directory: /flink/data/blob_storage 

parallelism.default: 4 

state.backend: filesystem 
state.backend.fs.checkpointdir: s3a://example-flink/checkpoints 

restart-strategy: none 
restart-strategy.fixed-delay.attempts: 2 
restart-strategy.fixed-delay.delay: 60s 

recovery.mode: zookeeper 
recovery.zookeeper.quorum: zookeeper-1.stag.local:2181,zookeeper-2.stag.local:2181,zookeeper-3.stag.local:2181 
recovery.zookeeper.path.root: /example/flink 
recovery.zookeeper.storageDir: s3a://example-flink/recovery 
recovery.jobmanager.port: 6123 

fs.hdfs.hadoopconf: /flink/conf 

したがって、スタンドアロンHAクラスタが正しく設定されているようです。

アップデート2

FYI:私はhereが説明するように、スタンドアロンHAクラスタをインストールしたいです。 YARN HAクラスタではありません。 flink-username-client-hostname.local.log:ここ

アップデート3

bin/flink CLIによって作成されたログです。

+0

完全なジョブマネージャログを貼り付けることができますか? –

+0

cliで使用されている 'flink-conf.yaml'(したがって' FLINK_HOME/conf/flink-conf.yaml'にあるもの)で適切なHA設定をしましたか? –

+0

@TillRohrmann私はログと 'flink-conf.yaml'を追加しました。何か問題は見えますか? –

答えて

2

FlinkクラスタをHAモードで起動すると、JobManagerアドレスとそのリーダーIDが指定されたZooKeeperクラスタに書き込まれます。 JobManagerと連絡を取るためには、アドレスだけでなくそのリーダーアドレスも知っている必要があります。したがって、CLIによって読み込まれる 'flink-conf.yaml`に以下のパラメータを指定する必要があります。この情報を

recovery.mode: zookeeper 
recovery.zookeeper.quorum: address of your cluster 
recovery.zookeeper.path.root: ZK path you've started your cluster with 

クライアントは、ZooKeeperのクラスタとどこJobManagerアドレスとその指導者のIDを検索しを見つけることができる場所を知っています。

+0

'bin/flink' CLIが' flink-conf.yaml'の設定を使用しているとします。右? –

+1

はい、cliは 'flink-conf.yaml'を読み込みます。 –

+0

自分のスタンドアロンHAクラスタの 'flink-conf.yaml'を私の開発環境にコピーし、' bin/flink run'を実行しました。その後、私の流れはHAクラスタで始まりました。 'flink-conf.yaml'から設定の一部を読むのは悪い考えです。なぜなら、これは分かりやすく分からず、' bin/flink'がスタンドアロンHAクラスタに接続するのに必要な引数を持つべきだからです。 –

関連する問題