2010-12-03 4 views
0

Hey、 サッカーの得点をダウンロードして保存するプログラムを作成しようとしています。たとえば、http://www.flashscores.co.uk/のようなサイトから取得します。私のプログラムは24時間365日稼働したままにしておきたいと思っていますし、ゴールが得られたらすぐに更新したいと思っています。JavaのWebからグラブのサッカースコア

理想的には、私はJavaを使いたいと思います。私はこれをどうやってやっていくのかは分かりません。 jericho HTMLパーサ(http://jericho.htmlparser.net/docs/index.html)を使用して、定期的にページソースをダウンロードし、必要なデータを検索することが私の考えです。これは効果がありますか?

おかげ

+1

私はこの種の(ab)使用がサイトの[ToS](http://www.flashscores.co.uk/terms/)に違反していると思います。つまり、JavaScriptを使用して生成されたコンテンツの多くは、HTMLをスクラップするだけでは機能しません。 HTMLパーサに表示される内容を確認するには、CSSとJavaScriptを無効にしてページを読み込みます。それほど多くはありません。 –

+0

まあまあ、私はスコアを一切見ていない。どのようにJavaScriptのコンテンツを読むのですか?私はCSSで – Roger

+1

秒@Mattを見てみたいと思っています。 APIを使用してサイトを検索すると、違法な行為が行われます。 –

答えて

0

あなたはそれがLIVESCORE.inからスコアを取得するのです提供サイトでは、彼らはあなたがflashscores.co.ukに示す表示の同じ型を持つことができ、あなたはそれをカスタマイズすることができます。広告が表示され、あなたの使用を制限します。しかし、あなたはそれをカスタマイズすることができるので、あなたのサイトにスコアを表示したいだけなら、それは行く方法です。

ただし、スコアを使用するためにスコアを削ってしまいたい場合は、その条件に違反しています(上記のリンクを参照)。あなたはいつも彼らが使用している会社、Xscores.comに連絡し、それらを支払うことができます。

0

カートに追加するまで、一部のサイトの価格が表示されないのはなぜですか?今あなたは知っている。他の人があなたがデータを引き出したいサイトの利用規約を理解していると言っています。それは実際に多くのサイトがスクリーンスクレイピングから人々を防ぐというこの種のポリシーを持っている理由です。

Javaを使用して技術的な観点から質問に答えるには、これをバックグラウンドで繰り返し実行できるプロセスであるDaemon threadとして設定することをお勧めします。これは、おそらくいくつかのAPI(またはスクリーンスクレイプ)に対する定期的なHTTP要求を行うでしょう。重要なことは、APIを理解することです.HTML解析ライブラリを使用することをおすすめします。後者のルートを終了する場合は、XML文書を生成できるものを使用することを推奨します。そのため、xpath問合せを実行して必要なデータを取得できます。

関連する問題