2017-11-16 10 views
0

ここでは一般的なガイダンスを探しています。NLP - 2つのテキストが類似のオブジェクトを参照しているかどうかを確認する方法

高レベルの使用例では、いくつかの情報を抽出して処理する必要がある製品ドキュメント が届きました。 を実行する前に、ドキュメントが実際に を正しい製品に参照していることを確認する必要があります。そのためには、製品の 見出し/説明を正しいものとして検証する必要があります。

だから私は2つのテキスト

  1. テキスト1持っている - これは私と一緒に利用できる実際の製品見出し/記述である、ことができます - これは、いくつかの文書
  2. テキスト2から抽出された製品情報を参照し正しいとみなされる。

両方のテキストが同じ製品またはオブジェクトを参照することを検証する必要があります。

例:あなたが見

Text 1 (to be validated) - Optimus Prime Costume, Blue, with good packaging and warranty 
Text 2 (correct info) - Optimus Prime Blue Costume, Medium Size` 

、私は両方のテキストがOptimus Prime Costumeを参照することを確認する必要があります。

は、私は、次の方法を試みた - 類似
  • TF-IDFの類似性

    • コサインを文字列

    しかし、彼らとの問題は、彼らがテキスト全体に依存していることであるとの

  • 重複の言葉テキストで参照されている主なオブジェクトではなく、

    次のように私は処理を考えていた: -

    • テキスト2.テキスト2から色、サイズ情報などを削除するには、非常に簡潔で、ランダムなデータが含まれていません。製品名とサイズ、カラー情報が含まれています。
    • テキスト2の残りの要素がテキスト1に存在するか、少なくともそれらの大部分が存在することを検証します。

    どのようなNLPテクニックがあるのか​​はよく分かりませんが、これはこのアプローチよりも優れていると思います。

  • 答えて

    0

    ターゲットに応じて、これは中程度または非常に難しい場合があります。

    あなたが使用することができます物事のカップルがあります。

    NERは間違いなく役立つだろう: enter image description here

    Wikifierはあまりにも役に立つかもしれません:http://cogcomp.org/page/demo_view/Wikifier

    もセマンティックロールのラベル。http://nlp.cogcomp.org/

    正確なアルゴリズムはどれか1つの例から判断するのは難しいですが、より多くの例がある場合は、より良い形式を思い付く方が簡単かもしれません。

    これの延長はあなたの最後のリンクが動作していない in this work.

    +0

    を使用されてきたものの中に見つけることができます。それをもう一度確認できますか? – AgentX

    +0

    今すぐ修正する必要があります。 – Daniel

    関連する問題