2017-11-14 8 views
0

Rでサイズが約1300000 * 10000(約50 GB)のビッグマトリックス(データフレーム)を生成します。この行列を適切な形式で保存したいので、後でPythonや他のプログラムコードにデータを入力して解析を行うことができます。もちろん、私はデータを一度に送ることができないので、マトリックスを部分集合し、少しずつフィードしなければなりません。 しかし、行列の格納方法はわかりません。私は2つの方法を考えていますが、どちらも適切ではないと思います。 サブセット化が非常に難しいため、プレーンテキスト(csvやExcelテーブルを含む)を使用しています(例えば、データの一部の列と一部の行が必要な場合) (2)データベースでは、mysqlとsqliteについての情報を検索しましたが、SQLデータベース(1024)ではカラム数が制限されているようです。 私は、データを格納するための良い戦略があるかどうかを知りたいので、データを行/列のインデックスまたは名前でサブセット化することができます。後で簡単にサブセット化できるビッグマトリックス(データフレーム)の保存方法

+0

誰も知らない? –

+0

10K列のいずれかで検索する必要がありますか?それともほんの一部ですか? –

+0

まあ、実際は今私はただ一つの列で検索する必要があります:すべての行にはrownameがあり、私はちょうどrowname/columnnameでサブセット化する必要があります –

答えて

0

検索/フィルタリングする必要があるいくつかの列ごとに別々の列を作成します。次に、クライアントコードが解析するのに便利ないくつかのデータ形式に10K列全体を置きます。 JSONは一般的な可能性の1つです。多くのデータのデータ型JSON又はTEXTとして(ソフトウェアバージョンに依存) - id(AUTO_INCREMENT、主キー)、カラム検索、およびJSONブロブ:

だからテーブルだろう1.3M行及びおそらくは3列値。

関連する問題