2016-04-22 19 views
0

私はPythonで新しくなっています。 Recenty、私はxmlファイルで膨大な量の健康データを処理するプロジェクトを持っています。私のデータで大きなデータのpythonを格納

enter image description here

は、約100それらのがあり、それらのそれぞれが異なるID、起源、種類やテキストを持っている: はここでの例です。私はこのデータセットを訓練できるように、すべてのデータを保存したいと思っていました。私の心の最初のアイデアは、2D arry(1つのidとoriginを格納するもう1つのstore text)を使用することでした。しかし、機能が多すぎるとわかったので、どの機能が各文書に属しているかを知りたい。

誰もが最良の方法をお勧めしますか?拡張性、シンプルさとメンテナンスのために

+1

idをキーとする辞書と、キーとしての機能と値としての値を持つ辞書、または値としてのオブジェクトのいずれかを使用すると、おそらく離れてしまうことがあります。 – DeepSpace

+0

画像をあなたの質問にコピーしましたが、画像ではなく、 '{}'を使って関連するコードを投稿することをお勧めします。 – Leb

+0

あなたの問題が解決するまで、xmlパッケージの解析パッケージを使用して、辞書または可能なデータフレームにインポートできるデータを取得することをお勧めします。それが今立つところでは、あなたの質問は広すぎます。 – Leb

答えて

0

、あなたは、それらのデータを正規化し、データベースのスキーマを作成し、データベースにそれらのものを移動する必要があります(、sqliteの、Postgresのは、MySQL何でも)

これのpythonのうち、複雑なデータ・ロジックを移動します。これはModel-view-controllerの典型的な方法です。

Python辞書を作成して、それをすばやく、汚れています。あなたがデータから実用的な意味を理解したいのであれば、すぐに巨大なテクニカルタイムシンクになるでしょう。

関連する問題