私はscikit-learnを使ってテキスト文書をクラスタリングしています。私はそれを行うために、CountVectorizer、TfidfTransformer、およびMiniBatchKMeansクラスを使用しています。 新しいテキスト文書が常にシステムに追加されます。つまり、上記のクラスを使用してテキストを変換し、クラスタを予測する必要があります。私の質問は:どのようにディスクにデータを保存する必要がありますか? 私は単にベクトル化、トランスフォーマー、およびkmeansオブジェクトをピケッとすべきですか? データを保存すればよいですか?もしそうなら、それをどのようにベクトル化、トランスフォーマー、およびkmeansオブジェクトに追加するのですか?sklearnのデータを保存する
すべてのヘルプは大幅に
私たちは、これがどのように壊れやすいの認識している、といいえ、私たちは現在ありません互換性のある変更はすべてMLで議論されなければなりませんが、互換性は通常いくつかのリリースで保持されます。より優れたシリアライゼーションソリューションがまだ見つかりませんでした。 –
Googleの職場では、プロトコルバッファは使いやすいクロスランゲージシリアル化形式の役割を果たします。私の趣味の時間では、私はまた、良い仕事をする倹約を使用しました。 –