0
beam.Filter
の一部として使用される単語のリストを含むGCSに格納された.txtファイルがある場合、このリストはApacheのビームパイプライン内で動的にアクセスできますか?私はこのリストをパイプライン内のグローバル変数として定義できることを知っていますが、ファイル全体をリストに読み込む方法と、これを達成するためのビームトリックがあるかどうかはわかりません。助言がありますか?ここで私は次のエラーを取得動作していない私の現在の実装..Google Cloud Dataflowアクセスクラウドストレージの.txtファイル
def boolean_terms(word, term_list):
if word in term_list:
return (word, 1)
else:
return (word, 0)
# side table
filter_terms = p | beam.io.ReadFromText(path_to_gcs_txt_file)
words = ...
filtered_words = words | beam.FlatMap(lambda x:
[boolean_terms(word, filter_terms) for word in x])
ある「例外TypeError:型の引数を 『_InvalidUnpickledPCollection』反復可能ではありません」
ありがとう!私は私が近くにいると思うが、それはまだ私のために働いているようには見えない。何か不足していますか? – reese0106
ああ、私はそれを理解したと思う - これを正しく動作させるために 'pvalue.AsList(filter_terms)'を追加する必要があった – reese0106