文字列類似性測定に使用するテストとトレーニングデータセットを取得しました。トレーニングセット(35個のサンプル)およびテストセット(15のサンプル:我々は2に設定されたデータを分割する必要がTwitterの話題文字列の類似性を測定するためのJaccard係数の使用
TWEET_SENT_1 – Tweet sentence 1
TWEET_SENT_2 – Tweet sentence 2
HAVE_SIMILAR_MEANING – a binary label (True – two sentences are similar, false – two sentences are not similar) assigned by a human annotator
- ここで私は、
Brandon Bass ||| what the hell is Brandon bass thinking ||| Brandon Bass Has 5 Personal Fouls ||| False
Sac ||| Congrats to Sac Kings fans ||| why yall forcing the kings to stay in sac town smh ||| False
Stella ||| hello Stella can you follow me please ||| STELLA DO U HATE ME ||| False
The data file has 50 entries of the form
TOPIC ||| TWEET_SENT_1 ||| TWEET_SENT_2 ||| HAVE_SIMILAR_MEANING
TOPICをデータセットの数行を与えています)、アルゴリズムのパラメータ調整にトレーニングセットを使用する必要があります。また、最適な調整パラメータを使用してテストセットをテストします。
アルゴリズムがJaccard係数の場合
このタスクはどのように実行できますか?誰かが私に使用できるアプローチを教えてもらえますか?