Morningstarのウェブページをスクラップすることができます。モーニングスターは、私が日常見上げるが、他の場所で見つけることができていない投資信託に関する情報を提供してすなわちスクリーンスクレイピング用のmorningstarのWebページをダウンロード
- トータルリターンは
は例です:スクリーンスの前置きとしてmorningstar example
、私はデザイアーズでWebページをダウンロードできるようにする必要があります編集されたコンテンツ。残念ながら、上記の例のリンクを取得するためにJava SE6またはwgetを使用しようとすると、HTMLの一部しか取得されません(テーブルの総数は表示されません)。ブラウザ(Chrome)を使用すると、HTMLのみとしてページを保存すると同じ結果が得られます。私は完全なページ(html、js、css、および他のすべて)を保存するために私のブラウザを使用する場合、ダウンロードされたHTMLに興味深い情報が含まれていることに気付きます。
- がどのように私はプログラム的に全体htmlファイルをダウンロードすることができます。
私は2つの質問がありますか?私はこのプログラムをJavaで書いていますが、私は外部ツールを呼び出すことはありません。
- 私の前の試みが私が期待していたHTMLを生み出していないのはなぜですか?
ありがとうございます。
私は、Yahoo FinanceとYQL/datatablesを代替案として検討しましたが、Yahoo Financeはパーセンタイルのランキングを提供していません。ミューチュアルファンドのパフォーマンスを調べると、ランキングのN/A値が表示されます。 Yahoo Finance example。残念ながら、これはYQL/datatablesの使用を排除します。彼らの著作権表示は、2番目の段落の最後の文で可能にモーニングスターの著作権、私は個人的、非商業的な使用のためにスクリーンスよ、のいずれかの質問について
:あなたが情報を使用する権利があり
それあなたのプライベートのために、 は非商用目的でのみ使用されています。 Morningstar Copyright。
WWW:Mechanizeはこの種のタスクに優れています。 – Eamorr
データを入手したら、そのデータを使って何をする予定ですか? – marto
@Eamorrはページソースを見て、WWW :: Mechanizeのドキュメントを読んで、これがうまくいかない理由を教えてください。 – marto