私はSparkコンテキストをブロードキャストし、反対側でそれを取得するシナリオで作業しています。他の方法でも可能ですか?そうでなければ誰かが理由を説明することができます。Spark Contextをブロードキャストすることは可能ですか?
ご協力いただきまして誠にありがとうございます。
final JavaStreamingContext jsc = new JavaStreamingContext(conf, Durations.milliseconds(2000)); final JavaSparkContext context = jsc.sc(); final Broadcast<JavaSparkContext> broadcastedFieldNames = context.broadcast(context);
は、ここで私が達成しようとしているものです。 1.私たちには、カフカという形式のXML EVENTがあります。 2. xmlイベントでは、1つのHDFSファイルパス(hdfs:localhost // test1.txt)を持っています。 3. SparkStreamContextを使用してDSTREAMを作成し、xmlをフェッチしています。マップ関数を使用して、各xmlのファイルパスを読み取ります。 4. HDFS(hdfs:localhost // test1.txt)からファイルを読み込む必要があります。 これを読むには、私は入力ファイルの並列読み込みのためにexecutorにsparkコンテキストをブロードキャストしようとしているので、sc.readfileが必要です。 現在、私たちはHDFS Readファイルを使用していますが、それは並行して正しく読み込まれませんか?
の上に構築照会することはできませんこれは不可能なことです。実行者側では、ドライバー・アクションを開始できません。おそらく根本的にあなたのアルゴリズムに間違いがあります。あなたが達成しようとしていることを説明してください。 –
あなたはapache sparkから行を削除することができますが、sparkをSQLクエリを実行するためにolapエンジンとして使用する場合は、Apacheのインキュベータcarbondataをチェックして、更新レコードの削除をサポートし、スパークの上に構築してください –
こんにちは、 。ここで私が達成しようとしていることがあります。 1. XMLイベントはKafka から来ています。2. xmlイベントには、HDFSファイルパス(hdfs:localhost // test1.txt)が1つあります。 3. SparkStreamContextを使用してDSTREAMを作成し、 xml。マップ関数を使用して、各xmlのファイルパスを読み取ります。 4. HDFS(hdfs:localhost // test1.txt)からファイルを読み込む必要があります。これを読むには私はsc.readfileが必要なので、インプットファイルの並列読み込みのためにexecutorにsparkコンテキストをブロードキャストしようとしています 現在、私たちはHDFS読み込みファイルを使用していますが、 – Aru