2015-09-06 3 views
14

この質問は間違ったサイトで尋ねられますが、私はこの他のサイトでこの質問をすることができませんでした。ウェブスクレイピングは許可されていますか?

私は別のWebサイトからの特定の統計情報を必要とするプロジェクトに取り組んでいます。このデータを自動的に15分ごとに取得するHTMLスクレイパーを作成しました。しかし、私は彼らの使用条件のように、今はボットを止めました、彼らはそれを許可しないと言います。

私は本当にこれを尊重したいと思っています。特に、このデータを取ることを禁止する法律があるのですが、私は一回の回答なしで数回電子メールで連絡してきました。それが合法であれば、私は単にデータを取得します。

私はそれが正当なものだと読んだことがありますが、StackOverflowではもっと正確な答えが得られるはずです。

これは実際には違法ではないと思いますが、15分ごとにいくつかの接続を行うボットを発見するソフトウェアはありますか?

また、データの取得については、チームごとに1つの番号が記載されています。この番号は、私自身の番号に転送されます。

+1

私はスクリーンスクレイピングの合法性を求めているので、この質問をトピックとしてクローズすることに投票しています。これは、ここで合理的に答えられない多くの要因に依存します。 –

+0

答えは「それは依存している」 –

+0

imho、あなたが 'robots.txt'の中の設定を尊重すれば、ウェブマスターは何も文句を言っていません。 – ankhzet

答えて

23
私はパブロ・ホフマンさん(Scrapinghubの共同創業者)「のWebスクレイピングの合法性とは何ですか?」に対する答えが、私は他のサイトで見つけた引用ます

:最初

まず物事:私は弁護士ではないですこれらのコメントは、Scrapinghubでの私の経験に基づいて、 のみであり、法律に応じて の助けを求めてください。ここで

は、ウェブサイトから 公開データをこする際に考慮すべきいくつかのことです(なお、以下のアドレスのみ米国の法律):彼らは破壊的な速度でクロールしていない限り

  • 、スクレーパー(利用規約の形で)契約を破ったり、犯罪を犯したりしないでください。 (コンピュータ詐欺行為法に定義されています)。
  • 企業が のサイト訪問者に十分な通知をしていないため、is not enforceableのようなWebサイトの利用規約に同意しています。
  • スクレイパーは、訪問者としてウェブサイトのデータにアクセスします。 と、検索エンジンに類似した以下のパスによってアクセスします。これは、ユーザーとして登録せずに明示的に受け入れることなく で行うことができます。
  • Nguyen v。Barnes & Noble、Inc.裁判所ruledウェブページの下部にある利用規約へのリンクを にするだけでは、「建設的な通知を引き起こす」ことが十分ではありません。言い換えれば、 の情報は公開されており、 の情報にアクセスするだけで契約条件が適用されることを意味するものではありません。スクレーパーは に明示的にも暗黙的にも合意していないため、 違反はありません。
  • ソーシャルネットワークでは、(公開ページでの行動を促す行動に基づいて)ユーザーになることの価値を、i)全プロファイルへのアクセス権の獲得、ii)共通の友人/ iii)他人に紹介し、iv)会員に直接連絡する。限りスクレーパーがCFAA
  • に関わる法律問題の徹底的な評価に違反していないので、彼らは彼らのサービスへの「不正アクセス」を獲得していないこれらのアクションのいずれかを実行を試みませんと、ここで見ることができます:http://www.bna.com/legal-issues-raised-by-the-use-of-web-crawling-and-scraping-tools-for-analytics-purposes
+2

これは私が答えになると思いますので、私はこれを答えにします。ありがとうございました! – Mikkel

0

そのサイトのルートフォルダにrobots.txtファイルが存在する必要があります。

スクラッパーを嫌うforbiddenと、allowed(受け入れ可能なタイムアウトが指定されている)という指定されたパスがあります。

ファイルが存在しない場合、何かが許可され、ウェブサイトの所有者がその情報を提供することに失敗した場合、あなたは責任を負いません。また


hereあなたはrobots exclusion standardに関するいくつかの説明を見つけることができます。

+1

ヒットして実行しますか?素敵なイデオロギー... – ankhzet

+0

「私に殴らないでください」と書かれているサインがない場合にのみ。 – FraggaMuffin

0

ウェブサイトによっては、ボットのクロールやデータの抽出がブロックされているものがあります。他の人は、TOSのページでボットがクロールしたくないと述べている人もいます。彼らがこれらのいずれかを持っていない場合、Webクロールは何か問題を起こすべきではありません。ダブルチェックは常に良いアイデアです。

関連する問題