データセットに2ワードごとのデータ共起を格納するdefaultdict
があります。私はすべてのペアがデータセットに存在するわけではないので、疎な表現を得るためにこのosを実行しており、したがっていくつかのメモリ空間を節約しています。デフォールトディクティックをnumpy行列または2次元行列のCSVに変換する
可能であれば、このdefaultdict
をnumpy
行列に変換できる標準機能がいくつかあります。私はdictをnumpy配列に変換する方法を認識しています。しかし、私は、defaultdictをmatrixに変換するより効率的な方法を探しています。
defaultdictをCSVに変換する標準機能がないので、numpyを使用してcsvをロードできます。
を編集しました - 私はパンダを使用して回避策を見つけました。私はdefaultdictをDataFrameに変換し、DFをnumpy行列に変換します。これ以上の方法はありますか?
しかし、悲しいことに、これはメモリの節約に役立ちません。あなたのデータを仮定
は
デフォルトのdictの例を挙げることができますか?期待される出力は? –
すでに存在する値にアクセスする場合、 'defaultdict'は通常の' dict'と同じです。この 'dict'のキーと値は何ですか?言葉や索引?どのような配列レイアウトが必要ですか? @ Ericの答えが合わない場合は、辞書と目的の配列(おそらくまばらなもの)の小さな例を教えてください。 – hpaulj
辞書の辞書から疎な行列を構築することについて。 http://stackoverflow.com/questions/27770906/why-are-lil-matrix-and-dok-matrix-so-slow-compared-to-common-dict-of-dicts – hpaulj