2016-10-10 4 views
0

ipiparallelライブラリを使用して、異なるマシン上でipcontrollerとipengineを実行しようとしています。ipyparallelが "registration:stalled registrationをパージする"を表示しています

私のセットアップは次のとおりです。

リモートマシン: のWindows Server 2012 R2 x64の、ポート5900およびIP = 0.0.0.0をリッスンし、ipcontrollerを実行しています。

ローカルマシン: のWindows 10のx64、ipengineを実行している5900

コントローラー・コマンド開始し、リモートマシンのIPアドレスとポートをリスニング: ipcontroller --ip = 0.0.0.0 --portを= 5900 --reuse --logツーファイル= Trueの

エンジン始動指令: ipengine --file =/C /ユーザ/ユーザ/ ipcontroller-engine.json --timeout = 10 --log -to-file = True

ipengineのipcontroller-engine.jsonのインターフェースフィールドを "tcp://127.0.0.1"から "tcp://"に変更しました。起動時に

、ここipcontrollerログのスナップショットです:

2016-10-10 01:14:00.651 [IPControllerApp] Hub listening on tcp://0.0.0.0:5900 for registration. 2016-10-10 01:14:00.677 [IPControllerApp] Hub using DB backend: 'DictDB' 2016-10-10 01:14:00.956 [IPControllerApp] hub::created hub 2016-10-10 01:14:00.957 [IPControllerApp] task::using Python leastload Task scheduler 2016-10-10 01:14:00.959 [IPControllerApp] Heartmonitor started 2016-10-10 01:14:00.967 [IPControllerApp] Creating pid file: C:\Users\Administrator\.ipython\profile_default\pid\ipcontroller.pid 2016-10-10 01:14:02.102 [IPControllerApp] client::client b'\x00\x80\x00\x00)' requested 'connection_request' 2016-10-10 01:14:02.102 [IPControllerApp] client::client [b'\x00\x80\x00\x00)'] connected 2016-10-10 01:14:47.895 [IPControllerApp] client::client b'82f5efed-52eb-46f2-8c92-e713aee8a363' requested 'registration_request' 2016-10-10 01:15:05.437 [IPControllerApp] client::client b'efe6919d-98ac-4544-a6b8-9d748f28697d' requested 'registration_request' 2016-10-10 01:15:17.899 [IPControllerApp] registration::purging stalled registration: 1

そしてipengineログ:

2016-10-10 13:44:21.037 [IPEngineApp] Registering with controller at tcp://172.17.3.14:5900 2016-10-10 13:44:21.508 [IPEngineApp] Starting to monitor the heartbeat signal from the hub every 3010 ms. 2016-10-10 13:44:21.522 [IPEngineApp] Completed registration with id 1 2016-10-10 13:44:27.529 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (1 time(s) in a row). 2016-10-10 13:44:30.539 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (2 time(s) in a row). ... 2016-10-10 13:46:52.009 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (49 time(s) in a row). 2016-10-10 13:46:55.028 [IPEngineApp] WARNING | No heartbeat in the last 3010 ms (50 time(s) in a row). 2016-10-10 13:46:55.028 [IPEngineApp] CRITICAL | Maximum number of heartbeats misses reached (50 times 3010 ms), shutting down.

(ローカルの間で12.5時間の時差がありますマシンとリモートVM)

これはなぜ起こるかもしれませんか?

答えて

1

--reuseを使用している場合は、設定を変更する場合は必ずファイルを削除してください。 --reuseが指定されていて、接続ファイルがコマンドライン引数を無効にしている可能性があるので、--ipのようなものを変更するとうまく動作しない可能性があります。

--ip=0.0.0.0を設定すると、--location=a.b.c.dも設定すると便利です。a.b.c.dは、エンジンがアクセス可能なコントローラのIPアドレスです。

登録が正常に行われ、その後の接続で接続できない場合は、ファイアウォールが1つのポートのみを開くことが原因である可能性があります。コントローラーを実行しているマシンには、allポートが接続ファイルにオープンされている必要があります。接続ファイルにポート番号を手動で入力することで、これらをポート範囲に指定できます。

+0

ありがとうございました!問題は、ファイアウォールが登録ポートだけを開いていたことでした。私は接続ファイルで指定されたすべてのポートを開いた後に動作します。 – shreyashk

関連する問題