2017-01-15 15 views
-2

私は大量のデータを扱うプロジェクトに取り組んでいます。基本的には、ダウンロード可能なExcelファイルの一部のWebサイトに大きなリポジトリが存在します。サイトにはいくつかのフィルタのリストがあり、フィルタリングしてからデータを収集するいくつかの異なるパラメータがあります。全体的に見ると、このプロセスでは、1,000以上のExcelファイルをダウンロードしてコピー&ペーストする必要があります。Pythonはデータスクレイピングを自動化するのに適したツールですか?

Pythonにはこのプロセスを自動化する機能がありますか?基本的に私がやっていることは、フィルタ1 = A、フィルタ2 = B、フィルタ3 = C、ファイルのダウンロードを設定し、次に異なるパラメータで繰り返し、ファイルをコピー&ペーストすることです。 Pythonがこれに適しているなら、誰でも良いチュートリアルや出発点の指示に向けることができますか?そうでない場合は、背景の少ない人にはどの言語がこれに適していますか?

ありがとうございます!

+1

これはかなり意見に基づいています。おそらく、Pythonは、ほとんどの汎用言語と同様に、ほぼすべてに適していると言うのは間違いありません。 – Carcigenicate

+0

このコミュニティは、この種の質問に適していますか?私は恐れる:いいえ。 – GhostCat

答えて

1

個人的に私はこれのためにpythonを使いたいと思っています。私は、ヘッドレスのスプレッドシートのように使用できるデータフレームオブジェクトを持つ強力なデータ分析ライブラリであるPandasライブラリを特に見ていきます。少数のスプレッドシートに使用していて、それはとても速かったです。おそらくこの人のウェブサイトを見て、より多くの指導をしてください。 https://pythonprogramming.net/data-analysis-python-pandas-tutorial-introduction/

あなたの質問はスプレッドシートに関するもので、最初の段落は実際にファイルをダウンロードした後に作業していたのですが、ファイルを実際にフェッチしたり、あなたは物事のhttp側のリクエストライブラリを見ることができます - これは物事をするのに穏やかなやり方がある場合に使用できるものかもしれません。または、ウェブスクレイピングのための治療https://scrapy.orgを見てください。 私は部品で誤解された場合は申し訳ありません。

関連する問題