2011-12-18 15 views
-2

私は仕事があります。まず、私のプログラムに議論があります。この引数には、RSSフィード(たとえば、CnnRssFeeds)を見つけることができるWebサイトが含まれます。次に、これらのサイトにアクセスしてRSSフィードをダウンロードする必要があります(これらのファイルは通常.xml個のファイルと思われます)。Javaを使用して.xmlファイルをダウンロードし、ウェブページ(例:html)を解析するにはどうすればよいですか?

その後、.xmlファイルをディスク上のフォルダに保存し、最後にJavaのローマライブラリを使用してファイルを管理する必要があります。私はいくつかの情報を抽出する:タイトル、著者、説明、リンクなど

私を助けることができますか?私は各サイトにアクセスしてRSSをダウンロード(保存)したいときにいくつか問題があります(上記の通り、通常は.xmlファイルです)

+1

は、あなたの問題は何ですか?何を – AlexR

+0

@AlexR:上記のようなRssFeedsが見つかるウェブサイトにアクセスすると、RssFeeds(通常は.xmlファイル)をダウンロードしたいのですが、どうすればこれらのRssFeedsをダウンロードできますか? ? – limas

+0

@limas - 少しの研究(例えば、SOの簡単な検索)がこれらの質問に答えたでしょう。 –

答えて

3

ファイルをダウンロードするには、最初の回答をthisとしてください試してみました:))

XMLを解析するには、XPathを使用できます.XPathは、XMLドキュメントの要素と属性をナビゲートするために使用します。 This XPathのチュートリアルはかなり良いようです。

+0

@ narek.gevorgyan:ありがとう。私はあなたのアドバイスを使用して私の問題を解決しようとするか、私は私のトラブルを投稿する返信されます。 – limas

+0

@ narek.gevorgyan:もう一度ありがとうございます。あなたの記事は私を助け、私がする必要があるプロセスの一部です。 – limas

+0

あなたは大歓迎です。 –

1

なぜ多くの疑問符? サイトにアクセスすることがわかっている場合は、に問題がありません。のコンテンツをダウンロードしてください。あなたの問題は、HTMLを解析し、RSSフィードのURLを抽出することです。フィードはlinkタグを使用して、HTMLページに埋め込まれている:

<link rel="alternate" type="application/rss+xml" title="My Feed" href="/feeds/myfeed" />

だから、あなたがHTMLを解析する必要があります。これを行うにはいくつかの方法があります。たとえば、jsoupなどを使用できます。あなたはhref属性の値を抽出することができますHTMLを解析することができたら(この例では/feeds/myfeedを。)今だけ/feeds/myfeedであなたのページの完全なURL(CONCATENATEのURLを構築し、リソースをダウンロードしてください。

+0

@ AlexR:ありがとうございました。これは、私の問題を解決するために探している答えの一部です。それはうまくいった;-) – limas

+0

@limas、あなたが探している第二の部分は何ですか? – AlexR

+0

2番目の部分は、.xmlまたは.htmlページをダウンロードすることでした。この問題は、以下のポストでちょうど答えられました。私はあなたにWebページの構文解析について何か質問できますか?私はページに含まれているすべてのhrefのうちrss hrefだけを抽出したいと思っています。他のhrefとは異なるrrefの属性がありますか?私はさまざまなrssFeedsウェブサイトからrss hrefを取得したい。 – limas

関連する問題