Watsonドキュメント変換サービスを使用して複雑なPDFファイルを分割する

質問& Watson Discovery Service（WDS）を使用した応答システムを実装しています。私たちは各回答単位を単一の文書で利用できるようにする必要がありました。コーパスとして複雑なPDFファイルがあります。 PDFファイルには、2つの列データ、表およびイメージが含まれています。 PDFファイル全体をWDSにコーパスとして取り込む代わりに、Watson Document Conversion Service（WDC）を使用して各PDFファイルを回答単位に分割し、その後WDSに回答単位を取り込みます。Watsonドキュメント変換サービスを使用して複雑なPDFファイルを分割する

複雑なPDF分割のために、Watson Document Conversionサービスに2つの問題があります。

各見出しは、タイトルと対応するテキストとしてデータ（回答）として期待しています。しかし、各章を1つの答え単位として分割しています。見出しに基づいて2つの列文書を分割する方法はありますか？
入力PDFファイルにテーブルが含まれている場合、PDFファイルで利用可能な構造化データをシンプルテキスト（テーブルのフォーマットが不足している）として読み取るドキュメント変換サービス。回答ユニットにPDFから構造化データを読み取る方法はありますか？
```
"conversion_target": "normalized_html" 
```
をして生成されたHTMLを調べる：

出典

2017-09-18 Prashanth M

私はあなたが最初にこの設定を使用することにより、正規化されたHTMLにあなたのPDFに変換することをお勧めします。見出し（<h1>, <h2>, ..., <h6>）が検出された場所を探します。これらは、answer_unitsに戻ったときに回答単位で分割するために使用されるタグです。現在チャプターが答え単位として分割されているのは、各チャプターが見出しで始まり、見出しが検出されないためです。内の各チャプターはです。より多くの見出しがPDF HTMLへの変換ステップから生成されているので、より多くの答えユニットが生成されるように、hereを説明するよう

は、より多くの回答ユニットを生成するためには、PDFの入力設定を微調整する必要があります。

{ 
    "conversion_target": "normalized_html", 
    "pdf": { 
    "heading": { 
     "fonts": [ 
     {"level": 1, "min_size": 24}, 
     {"level": 2, "min_size": 18, "max_size": 23, "bold": true}, 
     {"level": 3, "min_size": 14, "max_size": 17, "italic": false}, 
     {"level": 4, "min_size": 12, "max_size": 13, "name": "Times New Roman"}, 
     {"level": 5, "min_size": 10, "max_size": 12, "bold": true}, 
     {"level": 6, "min_size": 9, "max_size": 10, "bold": true} 
     ] 
    } 
    } 
}

あなたはこのような構成で開始し、正規化された生成までそれを微調整保つことができる：

例えば、次のような構成では、各レベルのための特定のフォント特性に基づいて、6つの異なるレベルでの見出しを検出しますHTMLには、回答ユニットが存在すると予想される場所の見出しが含まれています。その後、answer_unitsに切り替えて、それをすべて一緒に入れて、微調整の設定を行ってください。

{ 
    "conversion_target": "answer_units", 
    "answer_units": { 
    "selector_tags": ["h1", "h2", "h3", "h4", "h5", "h6"] 
    }, 
    "pdf": { 
    "heading": { 
     "fonts": [ 
     {"level": 1, "min_size": 24}, 
     {"level": 2, "min_size": 18, "max_size": 23, "bold": true}, 
     {"level": 3, "min_size": 14, "max_size": 17, "italic": false}, 
     {"level": 4, "min_size": 12, "max_size": 13, "name": "Times New Roman"}, 
     {"level": 5, "min_size": 10, "max_size": 12, "bold": true}, 
     {"level": 6, "min_size": 9, "max_size": 10, "bold": true} 
     ] 
    } 
    } 
}

テーブルについてのあなたの2番目の質問については、残念ながら答え単位にテーブルの内容を変換する方法はありません。上に説明したように、回答単位の生成は見出しの検出に基づいています。つまり、検出された2つの見出しの間に表がある場合、その表は2つの見出しの間の他の内容と同様に回答単位の一部になります。

出典

2017-09-18 16:08:56

応答ありがとうございますAnton Prevosti。私たちは、上記で示唆されたアプローチを試し、いくつかの問題を特定しました。 URLの下の開発者フォーラムに関する調査を共有しました。 https://developer.ibm.com/answers/questions/401675/view.html –

Watsonドキュメント変換サービスを使用して複雑なPDFファイルを分割する

答えて

関連する問題