2017-02-22 11 views
0

私はR/Pythonを使用して個々のクエリからキーフレーズ抽出を行っています。コンテキストに基づいて無関係なクエリを特定する

しかし、クエリが特定のコンテキストで有効かどうかを検出する方法はありますか? ここで例のシナリオを探す:コンテキストを想定し

Query1 = 'I need to order a birthday cake. Cherry topped vanilla cream over chocolate.' 
Query2 = 'I wish to have a butterscotch cake with caramel sauce on top.' 
Query3 = 'I need to throw my chocolate wrapper into the dustbin.' 

はケーキのカスタマイズで、のQuery1を言わせて、Query2は有効ですが、Query3ではありません。 Query3は明らかにケーキのカスタマイズに関するものではなく、最初の2つのクエリはケーキのカスタマイズに関するものです。

キーフレーズ抽出ステップの前に無効なクエリを削除したい場合は、取るべきアプローチの助けは歓迎です。

ありがとうございます!

答えて

1

いくつかのクラスタリングを前処理ステップと考えることができます。クラスタ内のクエリが無関係に見えないようにクエリをクラスタ化します。クラスタリングのクエリを比較するには、TF-IDFウェイトを使用するBag-of-Wordモデルを使用してクエリ表現を生成し、コサイン類似度を使用して類似するクエリを見つけ出すことができます。

高度なアプローチに興味があるなら、深い学習テクニックを考えることができます。このような仕事をするために設計された深い学習テクニックが数多くあります。しかし、物事を単純にするために、深いニューラルネットワークを訓練して、クエリー/センテンス表現を生成することができます。

多くの事前訓練されたモデルが存在するため、実際にはその必要はありません。たとえば、skip-thought vectorsは、クエリの文表現(ベクトル)を生成できます。次に、それを使用してクラスタリングの照会を比較することができます。

+0

ありがとうございました!あなたの指示が役に立ちました。 – Sailesh

関連する問題