2016-04-19 3 views
0

私はドキュメント内にコンセプト(例えば「金」)を複数記述しています。しかし、概念洞察の概念検索は、概念としてのGoldとその概念に対する1つのテキストインデックス(通常は最初のオカレンスですが、必ずしもそうではありません)を返します。概念洞察の概念検索が文書中の「金」の他の言及を無視する特定の理由はありますか?私は、コンセプトのすべての出現の周りにテキストのスニペットを引くことに興味があります。そのコンセプトのすべての言及についてテキストインデックスを取得すれば素晴らしいだろう。私の最後に文字列のマッチをする以外に、それを得る方法はありますか?テキストインデックス概念の洞察のパラメータは概念の出現のインスタンスを1つしか与えません

ありがとうございました!

答えて

0

Concept Insightsの概念検索では、ドキュメント内の同じ(または関連する)概念のいくつかの言及を無視しません。実際、このサービスはこの情報を使用して、各文書でカバーされている概念領域の理解を強化しています。

しかし、文書が文書に関連する理由の「説明」では、/conceptual_searchエンドポイントは選択された一連の概念を返すことは事実です。システムは、クエリとドキュメントとの間の接続を正当化する概念の多様性を示すため、「説明」の一部として繰り返される概念を省略することができます(この「説明」については、従来の検索エンジンは、なぜ文書が関連性があるのか​​をユーザに示唆することがあり、それはではなく、である。

文書内で抽出されたすべての概念を、/ annotationsエンドポイント:GET /v2/corpora/{account_id}/{corpus}/documents/{document}/annotationsを使用して取得します。

(ドキュメント:https://watson-api-explorer.mybluemix.net/apis/concept-insights-v2#!/corpora/getDocumentAnnotations

文書内のすべての注釈のために、あなたは、文書の発生のためのテキストの位置と一緒に概念IDを取得します。したがって、上の例では、次のことができます。

1)/conceptual_searchエンドポイントを呼び出して、クエリに関連するドキュメントと、多数の説明コンセプト(ドキュメントをクエリに結びつける概念)を取得します。そのコンセプトが質問であることがわかったと言うとGoldです。

2)返されたドキュメントに対して/{document}/annotationsを呼び出し、選択されたドキュメント内の「説明コンセプト」(Gold)の追加の出現を探します。文書全体をカバーするGoldの出現のリスト(他の説明概念のリストと共に)を構築することができるはずです。