2017-05-04 8 views
0

私の仕事は、IBM Watsonを使用して、PDFをテキスト・ファイル、または自分のタスクに役立つ出力に変換することです。IBM Watson Document Converterを使用してPDFを解析する

このPDFは、お客様が作成したさまざまな形式の注文書です。顧客は、これらの購買発注を希望どおりに作成することができ、それらを解析する必要があります。

私はドキュメントコンバータをデフォルト設定で使用しようとしましたが、出力はすべての場所にあります。

これにアプローチするアドバイスは、おそらくIBMワトソン・インテリジェンスを使用して、定義されていない場合でも、これらの注文書で必要な情報を見つけ出すための道に沿ったものです。

ありがとうございました。

答えて

3

私の答えを確認するために、IBM DevelopersのAPI Referenceのマニュアルを簡単に参照できます。

私はあなたがcurlを使用しているとし、しかし、あなたがしたい場合は、リンク内NodejsPythonJavaとのいくつかの例があるでしょう。しかし、使用条件は実際にはと同じです。

チェック例CURLでメソッドを変換:fileインサイド

curl -X POST -u "{username}":"{password}" -F config="{\"conversion_target\":\"answer_units\"}" -F "[email protected]" "https://gateway.watsonplatform.net/document-conversion/api/v1/convert_document?version=2015-12-15" 

、あなたは、あなたのファイルから例をフォーマットを選択します:PDF あなたに呼び出されているファイルを置き換える、cURLの中で、あなたのown conversionを構築するにはPDF、HTML、またはWord文書ファイルを作成して、config内の"conversion_target"を、変換する形式に置き換えます。有効な値は、"answer_units","normalized_html"または"normalized_text"です。

  • GitHub hereのIBM Developersから1つの例を見ることができます。

  • フォークこの例ではhereです。

  • 公式のドキュメントでは、このサービスの文書を変換するチュートリアルcheck hereを見ることができます。

+2

これに追加するだけです。あなたがPDFで見るものは、常にコンピュータに表示されるものではありません。テキストは順不同で保存することも、グラフィック(スクリーンショット)を表示することもできますが、基礎となるテキストは見た目に関連しません。テストする最も簡単な方法は、テキストをテキストエディタにコピー/ペーストし、その結果を確認することです。それが完璧でない場合、変換ははるかに良くなる可能性は低いです。 –

関連する問題