2016-09-08 1 views
1

私はIBM Watsonの文書変換サービスを利用して、さまざまなタイプの文書を回答単位に変換するプログラムを作成しています。サービスによって返された各回答部は、コンテンツという名前の配列を含んmedia_typeこのテキスト要素を有するオブジェクトで構成されているワトソンドキュメント変換サービスから返されたアンサーユニットのコンテンツ配列に、複数の要素があることはありますか?

私はこのコンテンツ配列に複数の要素を見たことがない、と私はそこにいた場合はそれらを処理するかどうかはわかりません。この配列内に複数の要素が存在することはありますか?そうであれば、可能な値は何ですか?彼らはすべて同じであるmedia_type値ですか?現時点で私の計画は、のテキストの要素をすべて1つにまとめることです。

答えて

2

答え単位のコンテンツ配列は、複数の要素を持つことができます(要求した場合、下記参照)。そうであれば、配列内の各要素は同じ内容の異なるメディア型表現になります。

これは、リクエストに複数の出力メディアタイプを入れることで実現します。これを行うと、出力コンテンツ配列には要素以上の要素が含まれ、要求する各メディアタイプの要素が含まれます。

あなたの要求は、このようなconfig含まれている場合たとえば、:

{ 
    conversion_target : 'answer_units', 
    answer_units : { 
     output_media_types : ['text/plain', 'text/html'] 
    } 
} 

あなたがconfigを置く場所の説明についてはhttps://www.ibm.com/watson/developercloud/document-conversion/api/v1/#convert-documentを参照)

を次に、あなたの応答contentが含まれています:

content : [ 
    { 
     text : <the plain text contents of the answer unit>, 
     ... 
    }, 
    { 
     text : <the HTML contents of the answer unit>, 
     ... 
    } 
] 

ドン

 output_media_types : ['text/plain'] 

あなたは常に出力のテキストバージョンで、長さ1の配列を取得している理由です。「tはあなたがあるデフォルト値を取得します、出力メディアタイプパラメータを指定します。暗黙のうちに、デフォルトの設定を残すことで、1つの出力メディアタイプを要求しています。

+0

参照してください。私はoutput_media_typeを指定していないので、そこに要素が1つしかありませんか? ドキュメント変換で使用できるすべてのファイルタイプを変換しています。 –

+0

申し訳ありませんが、オプションを含めないと、デフォルトの動作が含まれているはずです。これを含めるように答えを更新しました。 – dalelane

+1

output_media_typesオプションは、現在サポートされている機能ではないため(例:将来消えるなど)、文書化されていません。また、それらのスニペットに戻ったhtmlは、不一致のタグで断片化される可能性があります。 –

1

回答単位コンバータは現在、見出しタグ(デフォルトで<h1><h2>)で分割されています。あなたがよりきめ細かくあなたの答えユニットを分割したい場合は、カスタム設定で渡すことによって、それが分割されるレベルを変更することができます。

{ 
    "answer_units": { 
     "selector_tags": ["h1","h2","h3","h4","h5","h6"] 
    } 
} 

は、これは良い情報ですhttps://www.ibm.com/watson/developercloud/doc/document-conversion/customizing.shtml#htmlau

+0

これは出力の 'answer_units'配列内に複数の要素を取得しますが、そうではありませんか? (OPが尋ねた出力 'content'配列ではなく)。または私は何かを誤解していますか? – dalelane

+0

あなたは間違いなしです。私は十分に十分に質問を読んでいない。 –

関連する問題