あなたは、希望のデータのHTMLコードを調べて、著者名のHTMLコードを探してみてください。単純なCtrl+F: Hans
ソースコードでそれを行います。あなたは"Hans"
は、ソースコード中に見つけることができる最初の時間は、コードのこの部分にあることが表示されます。
<div class="js-article"
data-page-title="Miljöpartiet vill få med miljardsatsning på skolor redan i höstbudgeten - DN.SE"
data-article-url="/nyheter/sverige/mp-vill-snabba-pa-miljardsatsning-pa-svaga-skolor/"
data-authors="Hans Rosén"
data-section-display-name="Sverige"
data-article-friendly-id="dn.epi.1739446"
data-article-title="MP vill snabba på miljardsatsning på svaga skolor"
data-article-publish-date="2017-05-11"
data-article-publish-time="19:53"
data-is-premium="true"
data-access-level="Limited"
data-is-standalone="false"
data-article-main-section="nyheter"
data-article-sub-section="sverige">
お知らせ記事の日とタイトルは、コードのこの部分に既にあります。ステップに次のウェブサイトからの情報のこの作品を抽出するためのPythonコードを学ぶことです、我々はして起動することもできます。
import requests
from bs4 import BeautifulSoup
r = requests.get("http://www.dn.se/nyheter/sverige/mp-vill-snabba-pa-miljardsatsning-pa-svaga-skolor/")
data = r.text
soup = BeautifulSoup(data, 'html.parser')
article_data = soup.find("div", class_="js-article")
今、私たちは、正確なデータを抽出するために、この操作を行うことができます。
title = article_data["data-article-title"]
date = article_data["data-article-publish-date"]
time = article_data["data-article-publish-time"]
author = article_data["data-authors"]
記事のボディ全体を抽出するために同様のアプローチを試してみてください、あなたは体がソースコード内div class="article__body-content"
内にあることがわかりますし、我々は単に使用できることを抽出するためにsoup.find()
:
article_body = soup.find("div", class_="article__body-content")
ありがとう、これは私が始めるために必要だったものです!そして、すばやい返信のために。 – Lamar
もっと良い返信です。あなたの投稿がおそらく削除されることに注意してください。それは解決策を探している質問ではありません。あなたは自分のためにそれをやる人を探していて、再利用することができます。 したがって、質問はあなたには広すぎます(具体的でも有益でもありません)。 PythonとBeautifulSoupを学ぶ方が良いでしょう.Youtubeのビデオがたくさんありますが、とても役に立ちます。もっと具体的な質問に戻ってください。 –
@FaultyFuse正確には、私はその質問にフラグを立てることを考えましたが、彼が望むデータのコードをどこで探すべきか分からないときにhtmlを解析する方法を説明しようとしました。 –