2017-10-25 14 views
1

yahoo robots.txt中のrobots.txtは言う:ヤフーファイナンスはウェブ治療を禁止していますか?

User-agent: * 
Sitemap: https://finance.yahoo.com/sitemap_en-us_desktop_index.xml 
Sitemap: https://finance.yahoo.com/sitemaps/finance-sitemap_index_US_en-US.xml.gz 
Disallow: /r/ 
Disallow: /__rapidworker-1.2.js 
Disallow: /__blank 
Disallow: /_td_api 
Disallow: /_remote 

は、ヤフーファイナンスの禁止ウェブscrapyかどうかをしていますか?
yahoo financeのウェブサイトでは何が許可されていませんでしたか?
yahooのrobots.txtファイルから推測できるものは何ですか?

答えて

1

ファイルrobots.txtに記載されているファイルの中には、Yahoo Financeを削ることは明白に禁止されていますが、YahooファイナンスにはYahoo's Terms of Serviceが適用されます。

この文書の最も関連する部分は、基本的には、そのサービスを妨害するようなことをしてはならないということです。現実的には、これは、データのためにYahoo Financeを掻き集めることを計画している場合は、責任ある行動をとる必要があることを意味します。

つまり、ウェブスクレイピングは一般的に非効率的です(プログラムでデータを収集するためにHTMLページ全体をリロードする)。私はAPIを代わりに(like those discussed here)使ってみる。これはa)信頼性が高いb)速くc)間違いなく合法的になるからだ。