2017-02-22 6 views
2

テキストアイテム間の共通の傾向/テーマを評価できるアルゴリズムまたは方法はありますか?例えばNLP:テキスト間の傾向を効率的に比較して特定する方法

は、の4つのデータポイント(テキストエントリ)があるとしましょう:

  • 「物理学のテストはかなり簡単でした。」
  • 「今日は学校が非常にストレス見つかりました」
  • 「私の物理テストは全く挑戦的ではありませんでした。」
  • 「物理テストは簡単で早く終了したので、誰もが早く出発しました。

これらの4つのエントリに基づいて、最初のものは外れ値であり、残りの部分との関係はありませんが、他の3つは「物理テスト」がどのように簡単だったかを示します。 "物理テスト")。

関連する文章間に共通スレッドを抽出する方法はありますか?これらの文章は完全に公開されており、単にオブジェクトについての感情を表現することに限定されず、何かを話すこともできます。

これはかなり広い質問だと私は理解していますが、人々が既存の解決方法や過去のこの問題に取り組んでいる方法を知っているかどうかを知りたいと思っていました。

答えて

6

まず、文表現(Sent2Vec)を生成してから、それらの表現を比較することができます。

英語の文の文の埋め込みを生成するには、多くのアプローチがあります。一般的なアプローチの1つはskip-though vectorsです。文をベクトルに変換してから、コサイン類似度を使って文を比較してください。

これらの文埋め込みを使用して、ターゲットタスクを達成するためにニューラルネットワークをトレーニングすることもできます。

+0

これは面白そうですね - ありがとう! Sent2Vecのプロセスは、私の仕事の最初の部分を達成するのに役立つと思われますが、具体的に何が文章の関係であるかを実際に特定する方法も探しています(つまり、両方とも "physics test"簡単に ") – abagshaw

+0

@abagshawあなたは文の解析と名詞句の抽出が必要です。そして句の埋め込みを生成し、可能なすべてのペアを比較します。キーワード間の関係を特定するための直感を得るべきです。 –

+0

それは私が考えていたことです...しかし、もしそれが数万/数千の文を比較することが可能かどうかは分かりません。 – abagshaw

関連する問題