私は茶色のクラスタリングアルゴリズムをhttps://github.com/percyliang/brown-clusterから実行しました。また、Pythonの実装https://github.com/mheilman/tan-clusteringも実行しました。そして、彼らは両方とも、一意のトークンごとに何らかのバイナリと別の整数を与えます。たとえば:Brownクラスタリングアルゴリズムの出力は何を意味しますか?
0 the 6
10 chased 3
110 dog 2
1110 mouse 2
1111 cat 2
はバイナリと整数は何を意味するのでしょうか?最初linkから
、バイナリはhttp://saffron.deri.ie/acl_acl/document/ACL_ANTHOLOGY_ACL_P11-1053/
を参照してください、bit-string
として知られている。しかし、私はdog and mouse and cat
1つのクラスタで、the and chased
が同じクラスタ内にないことを出力から言うのですか?
を3を得、それはそれぞれの行があることを言う:<<クラスタがビット列として表現します>入力>で単語の回数が発生します。 –
carla
それはどういう意味ですか?ビット列として表されるクラスタ? – alvas
あなたは正確に何を分類したいのかについていくつかの詳細を教えてもらえますか?この場合、私はいくつかの参考文献を探すことができます。それ以外の場合は、一般的な手順はないかもしれません。専門知識や事前定義された方策についてもっと詳しく考えています。 –