私はあなたが最初にこの設定を使用することにより、正規化されたHTMLにあなたのPDFに変換することをお勧めします。見出し(<h1>, <h2>, ..., <h6>
)が検出された場所を探します。これらは、answer_units
に戻ったときに回答単位で分割するために使用されるタグです。 現在チャプターが答え単位として分割されているのは、各チャプターが見出しで始まり、見出しが検出されないためです。内の各チャプターはです。より多くの見出しがPDF HTMLへの変換ステップから生成されているので、より多くの答えユニットが生成されるように、hereを説明するよう
は、より多くの回答ユニットを生成するためには、PDFの入力設定を微調整する必要があります。
{
"conversion_target": "normalized_html",
"pdf": {
"heading": {
"fonts": [
{"level": 1, "min_size": 24},
{"level": 2, "min_size": 18, "max_size": 23, "bold": true},
{"level": 3, "min_size": 14, "max_size": 17, "italic": false},
{"level": 4, "min_size": 12, "max_size": 13, "name": "Times New Roman"},
{"level": 5, "min_size": 10, "max_size": 12, "bold": true},
{"level": 6, "min_size": 9, "max_size": 10, "bold": true}
]
}
}
}
あなたはこのような構成で開始し、正規化された生成までそれを微調整保つことができる:
例えば、次のような構成では、各レベルのための特定のフォント特性に基づいて、6つの異なるレベルでの見出しを検出しますHTMLには、回答ユニットが存在すると予想される場所の見出しが含まれています。その後、answer_units
に切り替えて、それをすべて一緒に入れて、微調整の設定を行ってください。
{
"conversion_target": "answer_units",
"answer_units": {
"selector_tags": ["h1", "h2", "h3", "h4", "h5", "h6"]
},
"pdf": {
"heading": {
"fonts": [
{"level": 1, "min_size": 24},
{"level": 2, "min_size": 18, "max_size": 23, "bold": true},
{"level": 3, "min_size": 14, "max_size": 17, "italic": false},
{"level": 4, "min_size": 12, "max_size": 13, "name": "Times New Roman"},
{"level": 5, "min_size": 10, "max_size": 12, "bold": true},
{"level": 6, "min_size": 9, "max_size": 10, "bold": true}
]
}
}
}
テーブルについてのあなたの2番目の質問については、残念ながら答え単位にテーブルの内容を変換する方法はありません。上に説明したように、回答単位の生成は見出しの検出に基づいています。つまり、検出された2つの見出しの間に表がある場合、その表は2つの見出しの間の他の内容と同様に回答単位の一部になります。
応答ありがとうございますAnton Prevosti。 私たちは、上記で示唆されたアプローチを試し、いくつかの問題を特定しました。 URLの下の開発者フォーラムに関する調査を共有しました。 https://developer.ibm.com/answers/questions/401675/view.html –