2017-03-21 6 views
1

入れ子になったXMLファイルを読み込んで複数の行に分割するPython SDKのソースを書くにはどうすればよいでしょうか。既存のソースはすべて、XMLの文脈で必要なものではない行レベルで動作します。Beam Python SDKで複雑なXMLを読む

これはXMLファイルの束であり、すべての単一のファイルは、複数のレコード(注文行、支払いなど)に分割されなければならない1つのトランザクションを作成します。

答えて

1

独自のソースを記述するためのモデルとしてTensorFlowレコードを読み取るため、このパターンを使用することができます。 https://github.com/apache/beam/blob/master/sdks/python/apache_beam/io/tfrecordio.py

あなたが要素にXMLを解析するためのPythonを使用することができます。

ソースは、1つのタイプの要素のみを含む必要があるPCollectionに書き込むため、ソースでいくつかの支払いレコードといくつかの注文レコードを発行することはできません。単一のトランザクションレコードを発行するか、各レコードサブタイプの周りにラッパーを作成し、後でその内容をフィルタリングする必要があります。

+0

これは本当に役立ちますし、そうですね、さまざまなレコードタイプを別々のPCollとして扱わなければなりません。 – Jimmy