2017-09-11 35 views
1

私は何をしたいだけで、これまで私はJsoupユーチューブのタイトルを取得

title = doc.getElementById("eow-title").text(); 

を行うことによってJsoupでこれを達成しかし、今ユーチューブはそれがレイアウトだ変更していること、ユーチューブページのタイトルを取得していますタグがもう存在しない場合は、you tubehtmlコードを調べて、youtube playerタイトルを<script>タグ内に保存していることを確認しました。問題は次の形式であり、

var ytplayer = ytplayer || {}; ytplayer.config = {"メッセージ":{"player_fallback":["コンテンツを再生するには を必要とします。Adobe Flash Playerを使用しています。HTML5。\ u003ca href = \" https://get.adobe .COM /のFlashPlayer/\ "\ u003eScarica L'ウルティマ versioneディのFlash Player \ u003c/A \ u003e \ u003ca のhref = \"/HTML5 \ "\ u003eUlteriori informazioni sull'aggiornamento国連 ブラウザ HTML5の\ u003c/A \ u003e "]}、" args ":{" vm ":" CAIQABgE "、" iv_invideo_url ":" https://www.youtube.com/annotations_invideo?cap_hist=1\u0026video_id=wckFsik_vU8\u0026client=1\u0026ei= "JY-2WfHPFIWxcpzcrKAF"、 "watch_xlb": "https://s.ytimg.com/yts/xlbbin/watch-strings-it_IT-vflA6zD4C.xlb"、 "pltype": "contentugc"、 "author": "BrawlBRSTMs3 X "、"タイトル ":" Big Blue - F-Zero Music 拡張」、 "innertube_api_version": "V1"、 "イベントID": "JY-2WfHPFIWxcpzcrKAF"、

たぶん私は手動でいくつかのregexでタイトルを解析することができますか?私は何かを働かせるには十分に知らないregex、助けてください。

P.S. 私はすでにdoc.getTitle();を無駄に試していますが、私が得るのは完全なタイトルの代わりに "Youtube"です。 pleftが解決しよう

は、私は、コードを少し編集する必要がありましたが、これは私はそれがうまく行った方法です:

doc = Jsoup.connect(getLink()).get(); 
Elements script = doc.select("script"); //to get the script content 
Pattern p = Pattern.compile("\"title\":\"(.+?)\""); // Regex for the getting the string: "title":"blah blah blah" 
Matcher m = p.matcher(script.html()); 
m.find(); 
title = m.group().substring(8); 
+0

FYI: 'doc.getTitle();'はタグの間のテキストを取得します。明らかに「YouTube」です。 @pleftのソリューションはかなり安定しています! – <span class="text-secondary"> <small> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/3977134/">r3dst0rm</a></span> <span></span> </small> </span> </p> </div> </div> </div> </div> </div> </article> </div> <div class="answer-title"> <span class="text-logo margin-top-sm">A</span> <h2 class="title h4">答えて</h2> </div> <div class="item-description text-md markdown-body margin-bottom-40 voidso"> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">1<i class="fa fa-thumbs-up"></i></span> <i class="fa fa-check fa-2x"></i> </div> <div class="post-offset"> <div class="answer fmt"> <p>Yeap <code class="prettyprint-override">regex</code>は、トリックを行います。あなたは次のことを試すことができます:</p> <pre><code class="prettyprint-override">Element script = doc.select("script").first(); //to get the script content Pattern p = Pattern.compile("\"title\":\"(.+?)\""); // Regex for the getting the string: "title":"blah blah blah" Matcher m = p.matcher(script.html()); while(m.find()) { System.out.println(m.group()); } </code></pre> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/46158246">出典</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2017-09-11 14:33:46</span> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/3635454/">pleft</a></span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1038284119" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <article class="board-top-1 padding-top-10"> <div class="post-col vote-info"> <span class="count">0<i class="fa fa-thumbs-up"></i></span> </div> <div class="post-offset"> <div class="answer fmt"> <p>あなたがソースから<code class="prettyprint-override">player</code>のdivを読んでみてください、そしてその<code class="prettyprint-override">div</code>内部<code class="prettyprint-override">script</code>から<code class="prettyprint-override">title</code>を見つけることができます。ここには、<code class="prettyprint-override">JSOUP</code>を使った作業サンプルがあります。これにより、「タイトル」:「実際のタイトル」が印刷されますので、必要に応じて更新してください。</p> <pre><code class="prettyprint-override">Document doc = Jsoup.connect("https://www.youtube.com/watch?v=lhs_chrfXfE").timeout(10000).get(); Elements player = doc.select("div#player"); for(Element e:player){ Elements scriptContent = e.getElementsByTag("script"); for (Element paragraph : scriptContent) { System.out.println(paragraph.attr("script")); for (DataNode node : paragraph.dataNodes()) { Pattern pattern = Pattern.compile("\"title\":\"(.+?)\""); Matcher matcher = pattern.matcher(node.getWholeData()); if(matcher.find()) { **//***this is your title***** System.out.println(matcher.group(0)); } } } } } </code></pre> </div> <div class="post-info"> <div class="post-meta row"> <p class="text-secondary col-lg-6"> <span class="source"> <a rel="noopener" target="_blank" href="https://stackoverflow.com/q/46159516">出典</a> </span> </p> <p class="text-secondary col-lg-6"> <span class="float-right date"> <span>2017-09-11 15:43:25</span> <a rel="noopener" target="_blank" href="https://stackoverflow.com/users/1425331/">Jimmy</a></span> </p> <p class="col-12"></p> <p class="col-12"></p></div> </div> </div> </article> </div> <div class="clearfix"> </div> <div class="relative-box"> <div class="relative">関連する問題</div> <ul class="relative_list"> <li> 1. <a href="http://ja.uwenku.com/question/p-yenscfop-ms.html" target="_blank" title="Jsoup私はJsoupで、この情報を取得したいスパンクラス"> Jsoup私はJsoupで、この情報を取得したいスパンクラス </a> </li> <li> 2. <a href="http://ja.uwenku.com/question/p-xgzbtwtu-pz.html" target="_blank" title="jsoupで画像のURLを取得"> jsoupで画像のURLを取得 </a> </li> <li> 3. <a href="http://ja.uwenku.com/question/p-sowqpmme-ec.html" target="_blank" title="Jsoupから生の返信を取得"> Jsoupから生の返信を取得 </a> </li> <li> 4. <a href="http://ja.uwenku.com/question/p-wbrusfdu-dr.html" target="_blank" title="JSoupのクラスで要素を取得"> JSoupのクラスで要素を取得 </a> </li> <li> 5. <a href="http://ja.uwenku.com/question/p-midhswum-eg.html" target="_blank" title="Jsoup - フォームの動作を取得"> Jsoup - フォームの動作を取得 </a> </li> <li> 6. <a href="http://ja.uwenku.com/question/p-ewjnqzvq-dk.html" target="_blank" title="JSoupでテーブル行を取得する"> JSoupでテーブル行を取得する </a> </li> <li> 7. <a href="http://ja.uwenku.com/question/p-kgyjsphy-gn.html" target="_blank" title="jsoupで絶対URLを取得する"> jsoupで絶対URLを取得する </a> </li> <li> 8. <a href="http://ja.uwenku.com/question/p-olucyeej-mt.html" target="_blank" title="Jsoupで順番にデータを取得"> Jsoupで順番にデータを取得 </a> </li> <li> 9. <a href="http://ja.uwenku.com/question/p-vducqjeh-ha.html" target="_blank" title="pdf url(jsoup)からhtmlコンテンツを取得"> pdf url(jsoup)からhtmlコンテンツを取得 </a> </li> <li> 10. <a href="http://ja.uwenku.com/question/p-ctzcuidp-cz.html" target="_blank" title="jsoupでhtmlインラインスタイル属性値を取得"> jsoupでhtmlインラインスタイル属性値を取得 </a> </li> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block; text-align:center;" data-ad-layout="in-article" data-ad-format="fluid" data-ad-client="ca-pub-6208739752673518" data-ad-slot="4606349252"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <li> 11. <a href="http://ja.uwenku.com/question/p-skqlmpdw-du.html" target="_blank" title="JSoup - メタデータからURLを取得する"> JSoup - メタデータからURLを取得する </a> </li> <li> 12. <a href="http://ja.uwenku.com/question/p-ovxlbamz-db.html" target="_blank" title="URLを取得するJava JSoupエラー"> URLを取得するJava JSoupエラー </a> </li> <li> 13. <a href="http://ja.uwenku.com/question/p-pomkleip-mx.html" target="_blank" title="Jsoup - データの取得と操作"> Jsoup - データの取得と操作 </a> </li> <li> 14. <a href="http://ja.uwenku.com/question/p-wfxihpoh-b.html" target="_blank" title="ユーチューブの動画のURLリンクから抽出タイトルと説明"> ユーチューブの動画のURLリンクから抽出タイトルと説明 </a> </li> <li> 15. <a href="http://ja.uwenku.com/question/p-mnoptgmf-dk.html" target="_blank" title="はJSONでユーチューブの動画を抽出するときに時々私はこのエラーを取得するユーチューブ"> はJSONでユーチューブの動画を抽出するときに時々私はこのエラーを取得するユーチューブ </a> </li> <li> 16. <a href="http://ja.uwenku.com/question/p-qequpxyn-nx.html" target="_blank" title="セレンはタイトルを取得"> セレンはタイトルを取得 </a> </li> <li> 17. <a href="http://ja.uwenku.com/question/p-ojwvsset-eg.html" target="_blank" title="タイトルでメディアを取得 - wordpress"> タイトルでメディアを取得 - wordpress </a> </li> <li> 18. <a href="http://ja.uwenku.com/question/p-pcarqfbj-d.html" target="_blank" title=":ユーチューブ」"> :ユーチューブ」 </a> </li> <li> 19. <a href="http://ja.uwenku.com/question/p-rgwociuo-dh.html" target="_blank" title="YouTube動画のタイトルを取得する"> YouTube動画のタイトルを取得する </a> </li> <li> 20. <a href="http://ja.uwenku.com/question/p-ncvtunvb-ge.html" target="_blank" title="通知のタイトルを取得するAndroid"> 通知のタイトルを取得するAndroid </a> </li> <li> 21. <a href="http://ja.uwenku.com/question/p-ewalsbai-hr.html" target="_blank" title="RecRefで列のタイトル名を取得"> RecRefで列のタイトル名を取得 </a> </li> <li> 22. <a href="http://ja.uwenku.com/question/p-toczolda-co.html" target="_blank" title="イベントハンドラでUIButtonのタイトルを取得する"> イベントハンドラでUIButtonのタイトルを取得する </a> </li> <li> 23. <a href="http://ja.uwenku.com/question/p-cdfdmeuz-dx.html" target="_blank" title="simplehtmldomタイトルのhrefを取得する"> simplehtmldomタイトルのhrefを取得する </a> </li> <li> 24. <a href="http://ja.uwenku.com/question/p-ywiduxpi-er.html" target="_blank" title="googleクロムウィンドウのタイトルを取得する"> googleクロムウィンドウのタイトルを取得する </a> </li> <li> 25. <a href="http://ja.uwenku.com/question/p-welqhoju-hq.html" target="_blank" title="PHPのスクリプトでYouTubeタイトルを取得"> PHPのスクリプトでYouTubeタイトルを取得 </a> </li> <li> 26. <a href="http://ja.uwenku.com/question/p-xrmsskpy-cb.html" target="_blank" title="ドキュメントから関数のタイトルを取得"> ドキュメントから関数のタイトルを取得 </a> </li> <li> 27. <a href="http://ja.uwenku.com/question/p-rmgtoaba-cv.html" target="_blank" title="Webformのタイトルを取得するには?"> Webformのタイトルを取得するには? </a> </li> <li> 28. <a href="http://ja.uwenku.com/question/p-ncwgccpw-bp.html" target="_blank" title="ポストループの後にタイトルとIDを取得"> ポストループの後にタイトルとIDを取得 </a> </li> <li> 29. <a href="http://ja.uwenku.com/question/p-gohtrgyh-t.html" target="_blank" title="NSMenuItemのNSMenuItemをタイトルで取得する"> NSMenuItemのNSMenuItemをタイトルで取得する </a> </li> <li> 30. <a href="http://ja.uwenku.com/question/p-enotdqvp-nr.html" target="_blank" title="バックグラウンドタスクでトースト通知のタイトルを取得"> バックグラウンドタスクでトースト通知のタイトルを取得 </a> </li> </ul> </div> <div> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-format="autorelaxed" data-ad-client="ca-pub-6208739752673518" data-ad-slot="1575177025"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="padding-top-10"></div> </div> </div> <script type="text/javascript" src="http://img.uwenku.com/uwenku/script/side.js?t=1644592048742"></script> <script type="text/javascript" src="http://img.uwenku.com/uwenku/plugin/highlight/highlight.pack.js"></script> <link href="http://img.uwenku.com/uwenku/plugin/highlight/styles/docco.css" media="screen" rel="stylesheet" type="text/css" /> <script type="text/javascript"> $('pre').each(function(i, e) { hljs.highlightBlock(e, "<span class='indent'> </span>", false) }); </script> <div class="col-lg-3 col-md-4 col-sm-5"> <div id="rightTop"> <div class="row"> <script async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script> <ins class="adsbygoogle" style="display:block" data-ad-client="ca-pub-6208739752673518" data-ad-slot="5415218910" data-ad-format="auto" data-full-width-responsive="true"></ins> <script> (adsbygoogle = window.adsbygoogle || []).push({}); </script> </div> <div class="row sidebar panel panel-default"> <div class="panel-heading font-bold"> 最新の質問 </div> <div class="m-b-sm m-t-sm clearfix"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.uwenku.com/question/p-umvbirhh-me.html" target="_blank" title="iOS 11.2 imageFile"> iOS 11.2 imageFile </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.uwenku.com/question/p-sbvhcyrw-md.html" target="_blank" title="オブジェクトのインスタンスに値を正しく格納する方法は?"> オブジェクトのインスタンスに値を正しく格納する方法は? </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.uwenku.com/question/p-gtctbocl-kq.html" target="_blank" title="json API経由の簡単なループ"> json API経由の簡単なループ </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.uwenku.com/question/p-rukypbew-ks.html" target="_blank" title="FBOのバイトへのアクセス"> FBOのバイトへのアクセス </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.uwenku.com/question/p-crsocdlh-kv.html" target="_blank" title="TypeError:myObservableArrayは定義されていません"> TypeError:myObservableArrayは定義されていません </a> </li> <li class="side_article_list_item"> 6. <a href="http://ja.uwenku.com/question/p-crdenkmv-kc.html" target="_blank" title="Reasonml/Bucklescriptで文字列を整数に解析するにはどうしたらいいですか?"> Reasonml/Bucklescriptで文字列を整数に解析するにはどうしたらいいですか? </a> </li> <li class="side_article_list_item"> 7. <a href="http://ja.uwenku.com/question/p-bvndlpre-ke.html" target="_blank" title="キャンバスにグリッドを描画して、データの入力を促す方法は?"> キャンバスにグリッドを描画して、データの入力を促す方法は? </a> </li> </ul> </div> </div> </div> <p class="article-nav-bar"></p> <div class="row sidebar article-nav"> <div class="row box_white visible-sm visible-md visible-lg margin-zero"> <div class="top"> <h3 class="title"><i class="glyphicon glyphicon-th-list"></i> 関連する問題</h3> </div> <div class="article-relative-content"> <ul class="side_article_list"> <li class="side_article_list_item"> 1. <a href="http://ja.uwenku.com/question/p-yenscfop-ms.html" target="_blank" title="Jsoup私はJsoupで、この情報を取得したいスパンクラス"> Jsoup私はJsoupで、この情報を取得したいスパンクラス </a> </li> <li class="side_article_list_item"> 2. <a href="http://ja.uwenku.com/question/p-xgzbtwtu-pz.html" target="_blank" title="jsoupで画像のURLを取得"> jsoupで画像のURLを取得 </a> </li> <li class="side_article_list_item"> 3. <a href="http://ja.uwenku.com/question/p-sowqpmme-ec.html" target="_blank" title="Jsoupから生の返信を取得"> Jsoupから生の返信を取得 </a> </li> <li class="side_article_list_item"> 4. <a href="http://ja.uwenku.com/question/p-wbrusfdu-dr.html" target="_blank" title="JSoupのクラスで要素を取得"> JSoupのクラスで要素を取得 </a> </li> <li class="side_article_list_item"> 5. <a href="http://ja.uwenku.com/question/p-midhswum-eg.html" target="_blank" title="Jsoup - フォームの動作を取得"> Jsoup - フォームの動作を取得 </a> </li> <li class="side_article_list_item"> 6. <a href="http://ja.uwenku.com/question/p-ewjnqzvq-dk.html" target="_blank" title="JSoupでテーブル行を取得する"> JSoupでテーブル行を取得する </a> </li> <li class="side_article_list_item"> 7. <a href="http://ja.uwenku.com/question/p-kgyjsphy-gn.html" target="_blank" title="jsoupで絶対URLを取得する"> jsoupで絶対URLを取得する </a> </li> <li class="side_article_list_item"> 8. <a href="http://ja.uwenku.com/question/p-olucyeej-mt.html" target="_blank" title="Jsoupで順番にデータを取得"> Jsoupで順番にデータを取得 </a> </li> <li class="side_article_list_item"> 9. <a href="http://ja.uwenku.com/question/p-vducqjeh-ha.html" target="_blank" title="pdf url(jsoup)からhtmlコンテンツを取得"> pdf url(jsoup)からhtmlコンテンツを取得 </a> </li> <li class="side_article_list_item"> 10. <a href="http://ja.uwenku.com/question/p-ctzcuidp-cz.html" target="_blank" title="jsoupでhtmlインラインスタイル属性値を取得"> jsoupでhtmlインラインスタイル属性値を取得 </a> </li> </ul> </div> </div> </div> </div> </div> </div> </div><!-- wrap end--> <!-- footer --> <footer id="footer"> <div class="bg-simple lt"> <div class="container"> <div class="row padder-v m-t"> <div class="col-xs-8"> <ul class="list-inline"> <li><a href="http://ja.uwenku.com/contact">お問い合わせ</a></li> <li>© 2020 JA.UWENKU.COM</li> <li><a target="_blank" href="https://beian.miit.gov.cn/">沪ICP备13005482号-4</a></li> <li><script type="text/javascript" src="https://v1.cnzz.com/z_stat.php?id=1280101193&web_id=1280101193"></script></li> <li><a href="http://www.uwenku.com/" target="_blank" title="优文库">简体中文</a></li> <li><a href="http://hk.uwenku.com/" target="_blank" title="優文庫">繁體中文</a></li> <li><a href="http://ru.uwenku.com/" target="_blank" title="поле вопросов и ответов">Русский</a></li> <li><a href="http://de.uwenku.com/" target="_blank" title="Frage - und - antwort - Park">Deutsch</a></li> <li><a href="http://es.uwenku.com/" target="_blank" title="Preguntas y respuestas">Español</a></li> <li><a href="http://hi.uwenku.com/" target="_blank" title="कार्यक्रम प्रश्न और उत्तर पार्क">हिन्दी</a></li> <li><a href="http://it.uwenku.com/" target="_blank" title="IL Programma di chiedere Park">Italiano</a></li> <li><a href="http://ja.uwenku.com/" target="_blank" title="プログラム問答園区">日本語</a></li> <li><a href="http://ko.uwenku.com/" target="_blank" title="프로그램 문답 단지">한국어</a></li> <li><a href="http://pl.uwenku.com/" target="_blank" title="program o park">Polski</a></li> <li><a href="http://tr.uwenku.com/" target="_blank" title="Program soru ve cevap parkı">Türkçe</a></li> <li><a href="http://vi.uwenku.com/" target="_blank" title="Đáp ứng viên">Tiếng Việt</a></li> <li><a href="http://fr.uwenku.com/" target="_blank" title="Programme interrogation Park">Française</a></li> </ul> </div> </div> </div> </div> </div> </footer> <!-- / footer --> <script> var _hmt = _hmt || []; (function() { var hm = document.createElement("script"); hm.src = "https://hm.baidu.com/hm.js?f78a970f17b19a79fc477a3378096f29"; var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(hm, s); })(); </script> </body> </html>