私は<script>
タグとbeatifulsoupを利用してタグ内のコンテンツを取り除こうとしています。私はドキュメントに行って、本当に簡単な関数呼び出しのようです。この機能の詳細はhereです。ここで私はこれまでに解析されているHTMLページのコンテンツがある...Beautifulsoup decompose()
<body class="pb-theme-normal pb-full-fluid">
<div class="pub_300x250 pub_300x250m pub_728x90 text-ad textAd text_ad text_ads text-ads text-ad-links" id="wp-adb-c" style="width: 1px !important;
height: 1px !important;
position: absolute !important;
left: -10000px !important;
top: -1000px !important;
">
</div>
<div id="pb-f-a">
</div>
<div class="" id="pb-root">
<script>
(function(a){
TWP=window.TWP||{};
TWP.Features=TWP.Features||{};
TWP.Features.Page=TWP.Features.Page||{};
TWP.Features.Page.PostRecommends={};
TWP.Features.Page.PostRecommends.url="https://recommendation-hybrid.wpdigital.net/hybrid/hybrid-filter/hybrid.json?callback\x3d?";
TWP.Features.Page.PostRecommends.trackUrl="https://recommendation-hybrid.wpdigital.net/hybrid/hybrid-filter/tracker.json?callback\x3d?";
TWP.Features.Page.PostRecommends.profileUrl="https://usersegment.wpdigital.net/usersegments";
TWP.Features.Page.PostRecommends.canonicalUrl=""
})(jQuery);
</script>
</div>
</body>
は、あなたがそのようないくつかのWebコンテンツを持っていて、BeautifulSoupオブジェクトにsoup_html
と呼ばれることを持っている想像してみてください。私がsoup_html.script.decompose()
を実行し、オブジェクトsoup_html
をまだそこに置いているとします。 <script>
とそのタグ内のコンテンツをどのように取り除くことができますか?
markup = 'The html above'
soup = BeautifulSoup(markup)
html_body = soup.body
soup.script.decompose()
html_body
実行中の実際のコードを貼り付けます。あなたが説明したステップをテストすると、すべてが問題なくなります。 **編集**また、閉じた 'div'がありませんでしたが、BSの問題はありません – 4140tm