つぶやきセットをクラスタ化したい。私はすでにつぶやきを取り出し、それらをきれいにし、ナイーブベイズ分類器をそれらに適用し、それらを正と負の2つのファイルに分けました。最後に、私は、各つぶやきの間の類似性を検索するために次のことを行っている:さて、これは、私は追加するかもしれない次のステップを考えていた他の各文の相対的な類似性を測定することになっている意味解析後のクラスタリング
with open("positive.txt", "r") as pt:
lines = pt.readlines()
for lineA in lines:
vectorA = text_to_vector(lineA)
for lineB in lines:
vectorB = text_to_vector(lineB)
cosine = get_cosine(vectorA, vectorB)
print lineA, "\n", lineB, "\n", "Cosine:", cosine
すべてのフレーズの値は、すべての文に文nの関係のすべてのコサイン値を加え、それをプロットしてプロットし、KMeansのようなものを適用すると、私は正しいアプローチをとっているここで、どんな助けも大歓迎です。
多くの選択肢がありますが、私の経験に基づいて、それらはすべてツイートで動作しません。あなたは重複している(簡単に)、ほぼ重複している(規模が大きいほど難しい)。しかし、クラスター - Twitterでのゴミの多すぎる仕事。 –