0
私はパイプラインにpdfファイルを読んでみたいです。しかし、私はプレーンテキストやXML以外のファイル形式に関するApacheのビームの例は見つけられませんでした。非テキストファイルをGoogle Dataflowパイプラインに読み込むことはできますか?
私はパイプラインにpdfファイルを読んでみたいです。しかし、私はプレーンテキストやXML以外のファイル形式に関するApacheのビームの例は見つけられませんでした。非テキストファイルをGoogle Dataflowパイプラインに読み込むことはできますか?
DataflowまたはApache Beamライブラリには既存のPDFリーダーがありません。しかし、この読者の例をTensorFlowレコードのモデルとして使用して、選択したPDF解析ライブラリを使用して独自のモデルを作成することができます。
リンクありがとうございました。 – XY6
Pythonでこのような例を知っていますか? ありがとう、eilalan – eilalan