ヘッドノードにパブリックネットワークの静的IPが設定され、内部ノードの計算ノードのNATルータとして機能するRocks(Centos 6.2ベース)クラスタを維持することを任されました。プライベートネットワーク。ノードは標準イーサネットとQDR Infinibandによってヘッドノードに接続されています。クラスタのヘッドノードにDNS障害が発生しました。ホスト名を解決できないノードを計算する
最近、コンピューティングノードは、wgetを使用して公開可能なデータセットをプルダウンするときに、DNSルックアップが失敗すると計算を開始するために外部データソースにアクセスできませんでした。すべての計算ノードは/etc/resolv.confのヘッドノードのIPで設定されており、ヘッドノード上のiptablesファイアウォールをチェックしたが、何も変更されていない。 SSHはすべてのノードとヘッドノードの間で動作します。いくつかのデータソースのIPアドレスを手動開始転送に使用すると、データは再び流れますが、アプリケーションの中にはIPを使ってデータを取得することができないものがあります。私はnamedとiptablesファイアウォールを再起動しようとしましたが、今のところ何も修正されていません。システムログ(dmesg、/ var/log/messages)には突然のエラーやエラーメッセージは表示されません。最近の設定変更は行われていません。ヘッドノードは名前にアクセスして解決することができます。NATヘッドノードの背後にあるコンピューティングノードだけが機能していません。
私はまだRocksのすべての仕組みには慣れていませんが、私はこれが再び動作するように見過ごされているいくつかの特別なrocksコマンドがあるかどうかはわかりません。 DNS解決を再度有効にするには、何が欠けていますか?
ありがとうございます!
UPDATE:DNSは計算ノードとヘッドノードの間で内部的に動作しています(たとえば、compute-10-10は他のすべてのノードからのそのノードのIPアドレスに解決されます)ので、ヘッドノードはクラスタDNSとして正しく機能しています。ローカルゾーン以外のドメインへのリクエストは、すべての計算ノードで失敗しています(例:nslookup google.comが失敗する)。