文章の意味類似度スコアを計算するライブラリはありますか?Python:文字列の意味類似度スコア
私はWordNetのセマンティックデータベースを知っていますが、どのように2単語のスコアを生成できるのですか?私はポートステミング、ストップワード除去などのすべての前処理タスクを実行するライブラリを探しています2つの文がどのように関連しているかについてのスコアを出力する。
前処理ステップの配列を使用してスコアを計算する.NETフレームワークを使用して作成されたworkが見つかりました。 これはpythonでこれを行うプロジェクトはありますか?
私は私は別のライブラリから接着剤の機能を自分で各ステージを実装するのが大好き、またはたい( hereを依頼されたように)私はスコアを見つけるのに役立つだろう一連の操作を探していないよ
ようにそれは文のペアのために働くが、私はこれを主にデータの推論をテストするツールとして必要とする。
編集:私は結果の標準偏差から推論を引き出すそしてNLTKを使用し、2つの文の上に反復単語のすべてのペアのスコアを計算し、検討していたが、私はかどうかを知りませんそれは類似点の正当な推定値です。さらに、長い文字列には長い時間がかかります。
もう一度、これを既にインテリジェントに実装しているプロジェクト/ライブラリを探しています。私はこれを行うことができます何か:
import amazing_semsim_package
str1='Birthday party ruined as cake explodes'
str2='Grandma mistakenly bakes cake using gunpowder'
>>similarity(str1,str2)
>>0.889
ベクトルベースの意味モデルまたは行列分解モデルを考慮して、文の類似性を比較してください。もしあなたがレクのようなコサインに戻ってしまうのであれば、最初に文をベクトル化して2つのベクトルの間のコサインを計算する – alvas
カットオフや必然的にスコアを必要とする場合は、NLTKのwup類似点を考慮してください。タイプ(動詞、名詞、形容詞など)を取得するには、CLIPSパターンのようなものを使用する必要があります。gensimやKmeansのファジィ/コサイン実装で見られるように、LSA/LDAのカテゴリの完全な数を実際に見つけるためにそれを使うことができます。 –