2017-12-21 9 views
1

私はpythonパッケージの美しいスープでウェブサイトを掻き集めるときに問題が発生しました。どういうわけか、私が興味を持っている部分を除いてすべてを取得しています。このサイトhttps://www.bitfinex.com/からリアルタイムデータを削り取ろうとしています。掻き取り中に美しいスープから部分を隠すことは可能ですか?

リアルタイムデータのすべての部分が実際に実行されています。データと同じコンテナ内のスクリプトブロックに何らかの形で接続されていると思います。 FirefoxとChromeはこの部分を調べることができますが、簡単で美しいスープはどうにか得られません。

私はすべてのアドバイスに感謝しています!

+1

あなたは '要求'を使用していますか? 'beautifulsoup'と' requests'は静的なhtmlしか扱えません。javascriptで生成されたコンテンツの場合、PhantomJSと一緒に 'selenium'を使うことができます。 また、bitfinexにはおそらくこの仕事をもっと簡単にするAPIがあります。 –

+0

私はそれを試してみます!私は登録することができないので、私はアカウントを作ることができるまでこれをやる必要があります。 – Marko

答えて

0

あなたの質問に答えるには、ウェブサイトがボットと思われるものからコンテンツをブロックしたり削除したりすることは可能です。 ユーザエージェントを設定していない場合は、それを試してください。 あなたがすでに試したことを知らずに、進める方法についてアドバイスをするのは難しいです。

+0

私はリダイレクトを過ぎているので、今はウェブサイトのコンテンツを取得していますが、このスクリプトの部分はchromeやfirefoxのように表示されません。 – Marko

0

なぜAPIを使用しませんか?

多くのウェブサイトでは、データを掻き集めるスパイダーを検出してブロックします。さらに、スクレイパーはUIを更新するたびに壊れてしまいます。

BitFinexのリアルタイムデータは、ページが読み込まれた後、おそらくAJAX上のJavascriptによって読み込まれます。

+0

彼らは現在新しい登録を許可していないので、私はウォレットを作ることができず、APIキーを取得することはできません。そして私は自分のトレードボットをテストし、リアルタイムのデータでトランザクションをシミュレートしたいと思っていました。 – Marko

+0

私は最初にリダイレクトされた検出を過ぎていますが、回避策を見つけることができました。 – Marko

+0

Nahあなたの利用規約に違反するお手伝いはできません。そのような画面をスクラップすると、おそらく使用条件に違反することになります。 –

関連する問題