0
from urllib.request import urlopen
from bs4 import BeautifulSoup
#specify the url
wiki = "http://www.bbc.com/urdu"
#Query the website and return the html to the variable 'page'
page = urlopen(wiki)
#Parse the html in the 'page' variable, and store it in Beautiful Soup format
soup = BeautifulSoup(page,"html.parser")
all_links=soup.find_all("a")
for link in all_links:
#print (link.get("href"))
#text=soup.body.get_text()
#print(text)
for script in soup(["script", "style"]):
script.extract() # rip it out
# get text
text=soup.body.get_text()
# break into lines and remove leading and trailing space on each
lines = (line.strip() for line in text.splitlines())
# break multi-headlines into a line each
chunks = (phrase.strip() for line in lines for phrase in line.split(" "))
# drop blank lines
text = '\n'.join(chunk for chunk in chunks if chunk)
print(text)
text1 = str(text)
text_file = open("C:\\Output.txt", 'w')
text_file.write(text)
text_file.close()
美しいスープを使ってニュースサイトからデータを抽出したいと思います。私はコードを書いたが、それは私に必要な出力を与えていない。まず、ページ内のすべてのリンクを処理してからデータを抽出し、ファイルに保存する必要があります。それでは、次のページとデータを抽出して保存するなど...今は、最初のページでリンクを処理しようとしていただけですが、フルテキストは表示されず、出力にいくつかのタグが付いています。beautifulsoupを使ってデータを抽出
data = []
soup = BeautifulSoup(page,"html.parser")
for link in soup.find_all('a', href=True):
data.append(link['href'])
text = '\n'.join(data)
print(text)
し、ファイルにテキストを保存するために進ん:あなたはこのような何かを試すことができ、ウェブサイトからのすべてのリンクを抽出するために
返信いただきありがとうございますが、これはlinks.iを抽出するだけで、すべてのリンクからテキストを抽出します。 – user3778289