こんにちは私は、行の最初の単語を特定して一意の値を作成し、それをRDDに追加するためにスカラーを使用しています。しかし、私はそれを行う方法を知らない。私はスカラに新しいので、この質問が不自由に聞こえる場合はご容赦ください。 私が試しているサンプルを以下に示します。RDDスパークで一意の値を追加する方法
サンプル:
OBR|1|METABOLIC PANEL
OBX|1|Glucose
OBX|2|BUN
OBX|3|CREATININE
OBR|2|RFLX TO VERIFICATION
OBX|1|EGFR
OBX|2|SODIUM
OBR|3|AMBIGUOUS DEFAULT
OBX|1|POTASSIUM
私はユニークな価値を創造し、OBRにしての下にそれを追加したいよりも、それはOBRであれば、私は最初の単語がOBRであるかどうかチェックしたいですOBX私はもう一度OBRを探していました。しかし、どうやってこれをすることができますか?私はHDFSから私のデータを持ってきています。
期待される結果:私のコメントで述べたように、これが唯一のシングルコア上で動作すると、誰かが私は何かにいくつかの光を当てることができない限り、火花を使用して行われるべきではありませんので
OBR|1|METABOLIC PANEL|OBR_filename_1
OBX|1|Glucose|OBR_filename_1
OBX|2|BUN|OBR_filename_1
OBX|3|CREATININE|OBR_filename_1
OBR|2|RFLX TO VERIFICATION|OBR_filename_2
OBX|1|EGFR|OBR_filename_2
OBX|2|SODIUM|OBR_filename_2
OBR|3|AMBIGUOUS DEFAULT|OBR_filename_3
OBX|1|POTASSIUM|OBR_filename_3
とほのめかしたと順番にファイルを読み込むようなものは存在しないHDFSより簡単な方法です。たとえば、すべてのOBRが最初に読み込まれた後に、その後にすべてのOBRが読み込まれると、コードはどのように動作しますか?他のすべてのレコードで最後のファイル名を取得しますか?しかし、単一のファイルで単一のコアを使用してアプリケーションを実行している場合は、期待どおりの順序でファイルを読み込むことができますが、その時点でsparkを使用する理由は何ですか? –
@ASpotySpot順番にそれを読み込み、最初にOBR_filename_idを作成し、次の値に達するまで同じOBR_filename_idをすべてのobxに入れて** OBR **を取得しているかどうかを確認します** OBR ** – animal
ファイルhdfs上にあるので、多くの部分に分割されています。たとえば、順番に読むのはどういう意味ですか?もしそれが多くのパーツに分割されていない場合、どのようにそれを行うにしても、単一のコアを使用しない限り、ファイルの部分を並列処理するので、シーケンシャルに動作するようにスパークさせるのは難しいです(私が知る限り)。私は一緒に何かを置くことができるが、その時点で私は信じて火花を使用して無意味です。私のHDFSの –