私はこの方法で解決:Javaコードでは、どのようにランダムなhtmlページのテキストを抽出できますか?
String url = ("http://www.repubblica.it/economia/finanza/2011/10/27/news/la_fine_dell_incertezza_solleva_le_azioni_bancarie_in_borsa_alle_italiane_mancano_15_miliardi_di_capitale_met_di_unicredit-23967707/");
Document doc = Jsoup.parse(new URL(url), 2000);
Elements body = doc.select("body");
String s=body.text();
System.out.println(s);
私はまだ別の問題を抱えています。私はタイトルのないメインのテキストを欲しいだけです。誰が私を助けられるか?
ウェブサイトからテキストを抽出するアルゴリズムが必要です。私はこのテキストをタグ、クラスなどからきれいにして、このアルゴリズムをどのWebページにも適用したいと考えています。イルタントatteso responsoがsui fabbisogniディパトリモニオデッレ maggiori banche europeeèarrivato -
MILANO:
は、例えばthis page
のために私はメインのテキストを必要とします。 L'Eba(l'Autoritàdi controllo bancaria europea)は2012年に必要とされ、2012年には となり、1人当たり106,5人で30ユーロになります。が重要です。私はメインのテキストを必要とする...............
について隋70 gruppi considerati、invece、IL赤字 patrimonialeèジ160 miliard:
TORINO - Effetto Chrysler sui conti Fiat。 Il Lingotto archivia il テルモトリメストレは17,6ミリアンペア(8,4 nello stesso trimestre 2010)です。 Piùche triplicato l'utile della gestione ordinaria che passa da 256 a 851 milioni。 terzi arrivanoダ デトロイトCHEによる................
おかげ
この宿題ですか? – ewok
あなたはapache http commonsを試すことができます – nidhin
2つのこと:まず自分自身の解決策に着いて受け入れられたとマークした場合は、自己回答を使用してください。第二に、新しい質問がある場合は、新しい質問をしてください。 – Kev