2016-07-29 9 views
-2

私は、PythonとBeautiful Soupを使用して、Webからフットボールのプレーヤー統計のデータを抜き出しています。私は複数のソースから掻き集めることになり、各ソースには、文字列、整数、およびブール値を含む各プレーヤーに関するさまざまな変数があります。たとえば、選手の名前、ドラフトされた位置、プロボウルのピック(y/n)。Pythonで解析されたデータを保存する最良の方法

最終的には、このデータを傾向分析のためにデータマイニングツールまたは分析ツールに入れたいと思います。これは検索可能にする必要があり、私は別の順序で新しいソースからスクレイピングしているときに、プレイヤーの情報にデータを追加する必要があります。

データを追加して後で分析できるように、データを保存するためにどのようなテクニックを使用する必要がありますか?

+0

データベース。がんばろう。 – shellter

+0

いいえ、CSVファイルです。これは、すべてのデータマイニングツールがうまく読み込める1つの形式です。 –

答えて

4

ダウンロード、解析、保存、分析の階層化アプローチを使用します。

レイヤを分離します。最も重要なのは、データをダウンロードして最終的に解析された形式で保存するだけではないということです。あなたは必然的にあなたが何かを見逃していることに気がつくでしょうし、それをもう一度かき集める必要があります。 requests + requests_cacheのようなものを使用してください(私は、requests_cache.backends.BaseCacheを拡張してファイルシステムに格納すると、デフォルトのsqliteストレージバックエンドよりも掻き払ったhtmlを調べる方が便利です)。

あなたはすでにうまく動作する美しいスープを使用しています。

保管の場合&分析はデータベースを使用します。 NoSQLに誘惑されないようにしましょう。集約クエリを実行する必要がある場合はすぐに、後悔します。

関連する問題