私はSpark Streamingを仮想マシンに持っており、kafkaを含む他のVMと接続したいと思います。私はSparkにカフカマシンからデータを取得させたい。 これは可能ですか?kafkaで他のVMからのSpark Streamingの使用方法
ありがとうございました
私はSpark Streamingを仮想マシンに持っており、kafkaを含む他のVMと接続したいと思います。私はSparkにカフカマシンからデータを取得させたい。 これは可能ですか?kafkaで他のVMからのSpark Streamingの使用方法
ありがとうございました
はい、間違いありません。実際には、これがシステムを分散している理由です:
Kafkaを使用している場合は、Spark Streamingプログラムを作成する際に、Kafka設定データ構造を作成する必要がありますプログラミング言語とクライアント)。その設定構造では、KafkaブローカーIPを指定する必要があります。これはあなたのKafka VMのIPになります。
その後、Spark VMでSpark Streaming Applicationを実行するだけで済みます。
別々のVMでそれらを使用することは可能であり、完璧です。そうすれば、明確な役割分担ができます。
お返事ありがとうございます。しかし、spark VMでspark-submitを起動すると、「タイムアウト時間内に飼い猫サーバーに接続できません:10000」というエラーが表示されることがあります。私が使ったIPアドレスは大丈夫だと思います。 – benSlash
私はどのクライアントまたは言語を使用しているのではないので、正確な解決策についてはコメントできません。しかし、ほとんどの場合、あなたはSpark ApplicationでブローカーIPを指定する必要があります。また、Zookeeperではなく(APIドキュメントを明確にチェックしてください)... Zookeeperが問題になっている場合は、Kafkaを単独で使用して隔離し、 - kafkaスクリプトを使用してメッセージを表示します。これは問題の絞り込みに役立ちます。 –