私は、CloudStream DataflowにPCollection
をそのまま書き込んでいます。彼らのインデックスによって最初のコレクションのアイテムを参照する別のコレクションを構築したいと思います。例えばDataFlowでのPCollectionのインデックス付け
PC1:
strings go here
some other string here
more strings
PC2:
0,1
1,1
0,2
私は全体のパイプラインを書き込み、別の起動することなく、PC1内のインデックスを取得する方法がわからないんだ、とさえ私にはわからないんだけど読み込まれている行/レコード番号のレコードを保持する方法。単純に静的変数を使用するのは安全ですか?私は、プラットフォームの一般的な並列性に基づいていないと仮定します。
インデックス化されたコレクションで何を行う予定ですか?おそらく、0からNの範囲の密な数値IDではなく、一意のIDを生成するだけで達成できます。 – jkff
(密度の高い数値IDを生成することも可能ですが、計算量が多く、必要でない可能性もあります)。 – jkff
ファイルに書き込むつもりです。このデータを作成するシステムには2つのファイルが必要です.1つは各行にレコードを持つテキストファイルで、もう1つは他のファイルのレコードの行番号を表す整数のペアです。 –