2016-09-12 1 views
1

Jsoupライブラリを使用して、HTML文字列からコンテンツ(テキストのみ)を取得しようとしています。内容を与えることができる2つの方法があります:jsoup.text()とjsoup.body()の違い。text()

Jsoup.parse(htmlString).body().text() 
Jsoup.parse(htmlString).text() 

私は最初の方法は、本文のテキストだけを返します知っています。 2番目の方法は何を返しますか?私の使い方のどちらが良いですか?

は:ドキュメントによれば、テキストの方法は、一方、第二のラインヘッド、タイトルと本文を含む全体のHTML文書からテキストを含む

+0

異なる文字列を試したときに得られた結果は? – chrylis

+0

私は両方とも同じ結果を得ました – balajiprasadb

答えて

4

は、各要素は()メソッドにtext()

公共のjava.lang.Stringテキストを持つこの要素 とそのすべての子の組み合わせテキストを取得します。空白は正規化され、トリムされます。

テキストノードを含めることができるすべての要素は、(node.nodeName()戻りの#text)、<title>タグ(<script><style>タグはノード名#dataと子供のノードを持っている)を除き、supposed to be part of the bodyです。

タイトルタグが頭に設定されていない限り、document.body().text()document.text()の同じテキストが有効なページに返されます。それ以外の場合は、document.text()にタイトルテキストが追加されます。

+0

@RealSkeptic:回答を更新しました。 '' textnodes(#text)は、 'text()'を呼び出すときに連結されます。 – <span class="text-secondary"> <small> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">1<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>文書の本文のテキストを設定するために使用され最初に本文からのテキストのみが含まれます。</p> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/39445062">出典</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2016-09-12 07:12:53</span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> <!-- comments --> <div class="comments"> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+0</span></div> <div class="col-lg-11"> <p class="commenttext">文書によると、テキストメソッドは文書本体のテキストを設定するために使用されます。 – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/3034019/">balajiprasadb</a></span> <span></span> </small> </span> </p> </div> </div> </div> <div itemprop="comment" class="post-comment"> <div class="row"> <div class="col-lg-1"><span class="text-secondary">+2</span></div> <div class="col-lg-11"> <p class="commenttext">@balajiprasad本文の外にテキストを設定することはできません。その理由は医者がそうだと言いますが、本文からだけでなく、頭からテキストを取り出すことができます。 – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/1964272/">Dropout</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">関連する問題</div> <ul class="relative_list"> <li> 1. <a href="http://ja.uwenku.com/question/p-qztszaqi-ea.html" target="_blank" title="'content'と 'text'の違い"> 'content'と 'text'の違い </a> </li> <li> 2. <a href="http://ja.uwenku.com/question/p-nagtocok-mh.html" target="_blank" title="`sz +" text "とcoffeescriptの` sz + "text" `との違いは何ですか?"> `sz +" text "とcoffeescriptの` sz + "text" `との違いは何ですか? </a> </li> <li> 3. <a href="http://ja.uwenku.com/question/p-rftowver-ox.html" target="_blank" title="Razorの@:と<text>の違い"> Razorの@:と<text>の違い </a> </li> <li> 4. <a href="http://ja.uwenku.com/question/p-oudeneae-hr.html" target="_blank" title=".textと.codeのセクション名の違い"> .textと.codeのセクション名の違い </a> </li> <li> 5. <a href="http://ja.uwenku.com/question/p-tarjndbi-z.html" target="_blank" title=".textと.get_text()の相違点"> .textと.get_text()の相違点 </a> </li> <li> 6. <a href="http://ja.uwenku.com/question/p-pkkqydgx-c.html" target="_blank" title=""-webkit-text-fill-color"と "color"の違いは?"> "-webkit-text-fill-color"と "color"の違いは? </a> </li> <li> 7. <a href="http://ja.uwenku.com/question/p-hyohweig-z.html" target="_blank" title="text/templateとtext/plainの違いは何ですか?"> text/templateとtext/plainの違いは何ですか? </a> </li> <li> 8. <a href="http://ja.uwenku.com/question/p-zclkhhxn-bp.html" target="_blank" title="type = "text/css"とtype = "text/stylesheet"の違いは?"> type = "text/css"とtype = "text/stylesheet"の違いは? </a> </li> <li> 9. <a href="http://ja.uwenku.com/question/p-deslvjmj-gt.html" target="_blank" title="セレンのxpathにある "//div[.aa[text()='SELENIUM ']]"と "// div [// a [text()=' SELENIUM ']]」の違いは"> セレンのxpathにある "//div[.aa[text()='SELENIUM ']]"と "// div [// a [text()=' SELENIUM ']]」の違いは </a> </li> <li> 10. <a href="http://ja.uwenku.com/question/p-favdjfai-pc.html" target="_blank" title="text = trueとget_text()を使用するときとの違い"> text = trueとget_text()を使用するときとの違い </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://ja.uwenku.com/question/p-ailalavl-ht.html" target="_blank" title="Angular 2の 'String'と 'Text'の違いは何ですか?"> Angular 2の 'String'と 'Text'の違いは何ですか? </a> </li> <li> 12. <a href="http://ja.uwenku.com/question/p-azthveet-ct.html" target="_blank" title="asp.net RequiredFieldValidator TextとErrorMessageの違いは何ですか?"> asp.net RequiredFieldValidator TextとErrorMessageの違いは何ですか? </a> </li> <li> 13. <a href="http://ja.uwenku.com/question/p-kigcdjcx-dy.html" target="_blank" title="application/csvとtext/csvの違いは何ですか?"> application/csvとtext/csvの違いは何ですか? </a> </li> <li> 14. <a href="http://ja.uwenku.com/question/p-pxxbfwiw-kk.html" target="_blank" title="Apache Commons Lang3とApache Commons Textの違いは何ですか?"> Apache Commons Lang3とApache Commons Textの違いは何ですか? </a> </li> <li> 15. <a href="http://ja.uwenku.com/question/p-tuarqqfa-hs.html" target="_blank" title="Android Speech to Text API(Recognizer Intent)とGoogle Cloud Speech APIの違いは?"> Android Speech to Text API(Recognizer Intent)とGoogle Cloud Speech APIの違いは? </a> </li> <li> 16. <a href="http://ja.uwenku.com/question/p-pzguzjga-ba.html" target="_blank" title="EditText - inputType = ""とinputType = "text"の違いは何ですか?"> EditText - inputType = ""とinputType = "text"の違いは何ですか? </a> </li> <li> 17. <a href="http://ja.uwenku.com/question/p-rirpelak-cw.html" target="_blank" title="SQLiteの "Text"データ型と "String"データ型の相違"> SQLiteの "Text"データ型と "String"データ型の相違 </a> </li> <li> 18. <a href="http://ja.uwenku.com/question/p-fepyohxy-p.html" target="_blank" title="MySQLのBLOBデータ型とTEXTデータ型の違いは何ですか?"> MySQLのBLOBデータ型とTEXTデータ型の違いは何ですか? </a> </li> <li> 19. <a href="http://ja.uwenku.com/question/p-mszmpaus-od.html" target="_blank" title="CockroachDBのTEXT、CHAR、およびVARCHARの違いは何ですか?"> CockroachDBのTEXT、CHAR、およびVARCHARの違いは何ですか? </a> </li> <li> 20. <a href="http://ja.uwenku.com/question/p-kqcfkzjq-ny.html" target="_blank" title="ブートストラップ:テキストnavbar-textの色が間違っています"> ブートストラップ:テキストnavbar-textの色が間違っています </a> </li> <li> 21. <a href="http://ja.uwenku.com/question/p-ndxsazyy-os.html" target="_blank" title="java regex matching&[text(text-text text)!text]"> java regex matching&[text(text-text text)!text] </a> </li> <li> 22. <a href="http://ja.uwenku.com/question/p-xikidazo-eb.html" target="_blank" title="setAttributeとtext"> setAttributeとtext </a> </li> <li> 23. <a href="http://ja.uwenku.com/question/p-keovwdhi-cc.html" target="_blank" title="c#とSilverlight:print text"> c#とSilverlight:print text </a> </li> <li> 24. <a href="http://ja.uwenku.com/question/p-srpvyljw-cz.html" target="_blank" title="HTTPartyとtext/xml"> HTTPartyとtext/xml </a> </li> <li> 25. <a href="http://ja.uwenku.com/question/p-fgzbrwiv-cn.html" target="_blank" title="Tomcat 6.0.29とApache2のtext/htmlをtext/plainとしてレンダリングする"> Tomcat 6.0.29とApache2のtext/htmlをtext/plainとしてレンダリングする </a> </li> <li> 26. <a href="http://ja.uwenku.com/question/p-ukxglcuk-nq.html" target="_blank" title="Sublime Text 3パッケージコントロールがインストールされていない、何が間違っている?"> Sublime Text 3パッケージコントロールがインストールされていない、何が間違っている? </a> </li> <li> 27. <a href="http://ja.uwenku.com/question/p-kcjtkmoh-hn.html" target="_blank" title="UIPickerViewのNSArrayとTextのNSArray"> UIPickerViewのNSArrayとTextのNSArray </a> </li> <li> 28. <a href="http://ja.uwenku.com/question/p-yklbwvfj-ko.html" target="_blank" title="日付のSpotfire Text to Text"> 日付のSpotfire Text to Text </a> </li> <li> 29. <a href="http://ja.uwenku.com/question/p-sdzvzkeh-oz.html" target="_blank" title="Kinesics Text EditorとGit"> Kinesics Text EditorとGit </a> </li> <li> 30. <a href="http://ja.uwenku.com/question/p-mthwzrbx-ee.html" target="_blank" title="Ajaxリクエストとtext/xml"> Ajaxリクエストとtext/xml </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048742"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新の質問 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.uwenku.com/question/p-nkhxxxkf-ms.html" target="_blank" title="ウェブクローラが別の出力に同じコードを出力する"> ウェブクローラが別の出力に同じコードを出力する </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.uwenku.com/question/p-dyvdebqq-nd.html" target="_blank" title="Azureには料金がかかりますが、ポータルには表示されません"> Azureには料金がかかりますが、ポータルには表示されません </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.uwenku.com/question/p-ckqgawkv-nb.html" target="_blank" title="デコレータで関数呼び出しがサポートされていません"> デコレータで関数呼び出しがサポートされていません </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.uwenku.com/question/p-gdglsjyl-nh.html" target="_blank" title="Pythonを使用して正弦波を生成するにはどうすればよいですか?"> Pythonを使用して正弦波を生成するにはどうすればよいですか? </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.uwenku.com/question/p-tdldvdmn-mx.html" target="_blank" title="プロファイルフィールドを検証する"> プロファイルフィールドを検証する </a> </li> <li class="side_article_list_item"> 6. <a href="http://ja.uwenku.com/question/p-tnridxwu-mv.html" target="_blank" title="matplotlibカラーバーの軸のサイズを変更"> matplotlibカラーバーの軸のサイズを変更 </a> </li> <li class="side_article_list_item"> 7. <a href="http://ja.uwenku.com/question/p-ccvtxsfj-my.html" target="_blank" title="AWS RDSからデータ(行)を取得する方法.NET用AWS SDKを使用したMySQLデータベースインスタンス?"> AWS RDSからデータ(行)を取得する方法.NET用AWS SDKを使用したMySQLデータベースインスタンス? </a> </li> <li class="side_article_list_item"> 8. <a href="http://ja.uwenku.com/question/p-mupuyiue-mp.html" target="_blank" title="R:<>ユニコードからレターへのエンコード"> R:<>ユニコードからレターへのエンコード </a> </li> <li class="side_article_list_item"> 9. <a href="http://ja.uwenku.com/question/p-mzfjpnmd-mk.html" target="_blank" title="NUnit3TestAdapterを.Net Standard 2.0で使用するにはどうすればよいですか?"> NUnit3TestAdapterを.Net Standard 2.0で使用するにはどうすればよいですか? </a> </li> <li class="side_article_list_item"> 10. <a href="http://ja.uwenku.com/question/p-twlqroia-mn.html" target="_blank" title="私はNoSuchMethodErrorを修正するにはどうすればよい:私はhadoop.Iにプロジェクトを1D文字列array.its名は「言葉」.I</p> <p>がしたいですしている書いているorg.apache.hadoop.mapred.InputSplit.write"> 私はNoSuchMethodErrorを修正するにはどうすればよい:私はhadoop.Iにプロジェクトを1D文字列array.its名は「言葉」.I</p> <p>がしたいですしている書いているorg.apache.hadoop.mapred.InputSplit.write </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 関連する問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.uwenku.com/question/p-qztszaqi-ea.html" target="_blank" title="'content'と 'text'の違い"> 'content'と 'text'の違い </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.uwenku.com/question/p-nagtocok-mh.html" target="_blank" title="`sz +" text "とcoffeescriptの` sz + "text" `との違いは何ですか?"> `sz +" text "とcoffeescriptの` sz + "text" `との違いは何ですか? </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.uwenku.com/question/p-rftowver-ox.html" target="_blank" title="Razorの@:と<text>の違い"> Razorの@:と<text>の違い </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.uwenku.com/question/p-oudeneae-hr.html" target="_blank" title=".textと.codeのセクション名の違い"> .textと.codeのセクション名の違い </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.uwenku.com/question/p-tarjndbi-z.html" target="_blank" title=".textと.get_text()の相違点"> .textと.get_text()の相違点 </a> </li> <li class="side_article_list_item"> 6. <a href="http://ja.uwenku.com/question/p-pkkqydgx-c.html" target="_blank" title=""-webkit-text-fill-color"と "color"の違いは?"> "-webkit-text-fill-color"と "color"の違いは? </a> </li> <li class="side_article_list_item"> 7. <a href="http://ja.uwenku.com/question/p-hyohweig-z.html" target="_blank" title="text/templateとtext/plainの違いは何ですか?"> text/templateとtext/plainの違いは何ですか? </a> </li> <li class="side_article_list_item"> 8. <a href="http://ja.uwenku.com/question/p-zclkhhxn-bp.html" target="_blank" title="type = "text/css"とtype = "text/stylesheet"の違いは?"> type = "text/css"とtype = "text/stylesheet"の違いは? </a> </li> <li class="side_article_list_item"> 9. <a href="http://ja.uwenku.com/question/p-deslvjmj-gt.html" target="_blank" title="セレンのxpathにある "//div[.aa[text()='SELENIUM ']]"と "// div [// a [text()=' SELENIUM ']]」の違いは"> セレンのxpathにある "//div[.aa[text()='SELENIUM ']]"と "// div [// a [text()=' SELENIUM ']]」の違いは </a> </li> <li class="side_article_list_item"> 10. <a href="http://ja.uwenku.com/question/p-favdjfai-pc.html" target="_blank" title="text = trueとget_text()を使用するときとの違い"> text = trueとget_text()を使用するときとの違い </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://ja.uwenku.com/contact">お問い合わせ</a></li> <li>© 2020 JA.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>