1

Googleのデータフローを使用してファイルを読み取っているときに先頭の行をスキップします。この機能は最新のバージョンで利用できますか? ファイルはGoogleストレージに保存されています。 私は大きな質問にこれらのファイルを書いています。Googleのデータフローでファイルを読み取るときに先頭行をスキップしています

bq loadコマンドには--skip_leading_rowsオプションがあります。このオプションは、ファイルから読み取るときに先頭の行をスキップします。

Googleのデータフローでこれと同様の機能が必要です。 私の入力は次の形式です。

私はGoogleのデータフローは、最初の行を無視して、この機能はデータフロー/パルドの中で直接サポートされていない大きなクエリに

enter image description here

+1

一般に、組み込みのTextIOトランスフォームはこれをサポートしていませんが、動作するものを見つけようとします。あなたは質問を編集して、読みたい入力の書式の短い例のスニペットを与えることができますか? – jkff

+1

[ヘッダー行をスキップする - Cloud DataFlowで可能ですか?](http://stackoverflow.com/questions/28450554/skipping-header-rows-is-it-possible-with-cloud-dataflow) –

+0

Heyその質問はほぼ1.5年前に答えられました。それ以来、新しい機能がデータフローに追加されている可能性があります。 –

答えて

2

を行だけ残りを書きたいです。

これを達成するには、Filter.byPredicate()を使用する必要があります。

PCollection<X> rows = ...; 
PCollection<X> nonHeaders = 
    rows.apply(Filter.by(new MatchIfNonHeader())); 
関連する問題