入れ子になったXMLファイルを読み込んで複数の行に分割するPython SDKのソースを書くにはどうすればよいでしょうか。既存のソースはすべて、XMLの文脈で必要なものではない行レベルで動作します。Beam Python SDKで複雑なXMLを読む
これはXMLファイルの束であり、すべての単一のファイルは、複数のレコード(注文行、支払いなど)に分割されなければならない1つのトランザクションを作成します。
入れ子になったXMLファイルを読み込んで複数の行に分割するPython SDKのソースを書くにはどうすればよいでしょうか。既存のソースはすべて、XMLの文脈で必要なものではない行レベルで動作します。Beam Python SDKで複雑なXMLを読む
これはXMLファイルの束であり、すべての単一のファイルは、複数のレコード(注文行、支払いなど)に分割されなければならない1つのトランザクションを作成します。
独自のソースを記述するためのモデルとしてTensorFlowレコードを読み取るため、このパターンを使用することができます。 https://github.com/apache/beam/blob/master/sdks/python/apache_beam/io/tfrecordio.py
あなたが要素にXMLを解析するためのPythonを使用することができます。
ソースは、1つのタイプの要素のみを含む必要があるPCollectionに書き込むため、ソースでいくつかの支払いレコードといくつかの注文レコードを発行することはできません。単一のトランザクションレコードを発行するか、各レコードサブタイプの周りにラッパーを作成し、後でその内容をフィルタリングする必要があります。
これは本当に役立ちますし、そうですね、さまざまなレコードタイプを別々のPCollとして扱わなければなりません。 – Jimmy