2017-05-19 2 views
2

私はスケジューラやcronjobを使って時々実行させるために、クラウドに展開したいPythonスクレイパー(スクリプト)をいくつか持っています。問題は、スクレーパーとその出力をホストできるプラットフォームがわからないことです。
P.S:私のスクリプトは、BeautifulSoupモジュールを使用してPythonベースです。どのようにクラウドにpythonスクレーパーを導入するのですか?

+0

あなたはどの技術を使用しているか知らずにその難しい – VMRuiz

答えて

2

ただBeautifulSoupをクラウドで廃棄して展開するだけでは効率的ではなく、コードを維持することも難しくなります。

Scrapyモジュールを試すことをお勧めします。どのように作業するのかわからない場合は、その文書から学習してください。あなたがScrapyで掻き分ける方法が十分に快適なときは、それを展開することができます。

最近、私は1つのプロジェクトに関連して10百万以上のデータを処理していましたが、その当時、私は実際に自分のコードをクラウドに展開したかったのです。多くの研究の後、私はScrapingHubを見つけた。

1つのアカウントを作成し、次に1つのプロジェクトをScrapy設定で作成する必要があります。無料のアカウントには1名の無料ワーカーがいて、24時間のみ稼働します。 その上にScrapyスパイダーを配置し、スパイダーを起動してください。完了後、データは7日間保存され、jsonのような任意の形式でデータをダウンロードできます。

関連する問題