私はNLP(自然言語処理)の新しい参加者です。私は、言い換えプロジェクトを開始するにあたり、2つの類似した文を認識できるシステムを開発しています。レキシカル、シンタックス、セマンティックの3つのレベルで様々な尺度を適用しようとしています。語彙レベルでは、コサイン類似度、マッチング係数、ジャカード係数...などの複数の類似度があります。シェフィールド大学によって開発されたsimMetricsパッケージは、さまざまな類似性測定のための素晴らしいパッケージです。これには多くの類似性測定値が含まれています。しかし、levenshtein距離とjaro-winkler距離測定の場合、コードはのみ* です。文章レベルでのコード化(つまり、単語を文字の代わりに単位として考える).Anまた、マンハッタン距離のコードはSimMetricsにはありません。私は、必要なコードを開発するための提案を専門家に要求します(または)上記の対策のために文章レベルでコードを提供します。文章レベルの類似性を使った言い換えの認識
あなたの時間と努力のおかげで、私を助けてくれてありがとう。
これは小さな問題ではありません。この分野で多くの専門知識や先行技術を見つけることはできません。 – Cerin
NLPを初めて知りましたなら、もっと小さく束縛されたプロジェクトを試してみてください。 –
「JNLP」は「NLP」とは関係ありません。タグを削除します。 –