0

ので、私は基本的に自分のワードに文字列オブジェクトを変換するStringToWordVectorフィルタを使用するライブラリのJava APIを学習ウェカのマシン...最も効果的な距離関数

を使用して、この協調フィルタリングシステムを構築しています出現分解....ので、今、私はターゲットオブジェクトに最も近い隣人を見つけるために、k最近傍アルゴリズムを使用してい

....

私の質問、どのような距離関数で私が間の距離を計算するために使用する必要がありますされますStringToWordVectorフィルタでフィルタリングされた2つのオブジェクトこのシナリオに効果的ですか?

ウェカで利用可能なオプションは次のとおりです。

AbstractStringDistanceFunction, ChebyshevDistance, EditDistance, EuclideanDistance, ManhattanDistance, NormalizableDistance 

答えて

0

はい類似性メトリックは良い時間です。簡単な答えは、RMSE、MAE、リターンセットの幅などに関してすべてを試して最適化する必要があるということです。

EditDistanceと予想されるように、Edit distanceと残りのメトリックの間には違いがあるようです。アルゴリズムは文字列そのものを処理します。

StringToWordVectorはどのように機能しますか?最初にこの質問に答え、その答えを使用して、次のような思考を促します。私のアプリケーションでは2つの単語の間の類似性を意味します(セマンティクスの意味は単語長を上回ります)。

StringVectorizerを使用している限り、LogLikelihood、Pearson、およびCosine(それぞれ)のようなメインストリームの類似性メトリックを自由に検討することができます。これはあなたが挙げてきた類似性の指標のどれも私の知る限りでは広く使われているか文献で真剣に研究されていないため、これは価値があると思います。

あなたと類似しているかもしれません!

関連する問題