私はMongoDBをデータストアとして使用しており、自分のドキュメントの「クラスタ化された」構成を別のコレクションに保存したいと考えています。MongoDB + Kはクラスタリングを意味します
だから1つのコレクションに、私は、オブジェクトの私の元のセットを持っているだろう、と私の第二に、それは私がここにテキストクラスタリングの実装にK-手段を以下のよ
kMeansCollection: {
1: [mongoObjectCopy1], [mongoObjectCopy2]...
2: [mongoObjectCopy3], [mongoObjectCopy4]...
}
を持っていると思います、 http://tech.swamps.io/recipe-text-clustering-using-nltk-and-scikit-learn/ですが、私は出力をMongoDBにどのように結びつけるのか考えるのは苦労しています。 (リンクから取られた)
例:
if __name__ == "__main__":
tags = collection.find({}, {'tag_data': 1, '_id': 0})
clusters = cluster_texts(tags, 5) #algo runs here with 5 clusters
pprint(dict(clusters))
VAR「のタグが」アルゴは、実行するために必要な入力です。 配列の形でなければなりませんが、現在のタグはオブジェクトの配列を返します(クエリからテキスト値を抽出する必要があります)
しかし、私のコレクションを5つの方法で魔法のようにクラスタリングした後、 mongoからのそれぞれのオブジェクトのエントリと?
私は、オブジェクトの1つのプロパティから特定のテキストコンテンツを供給しています。
ありがとうございます!
完璧なアイデア。あなたに感謝します! –