2017-11-05 4 views
0

HTMLページから特定の単語を抽出し、単語の繰り返し回数を数えなければなりません。美しいスープを使ってこれをPythonでどうやって行うのですか?スープにURLを通して単語を数えるにはどうすればいいですか?美しいスープを使用してhtmlページから特定の単語を得る方法

これまでのコードです。私は次に何をすべきか分かりません。

import bs4 as bs 
import urllib.request 

source = urllib.request.urlopen('https://pythonprogramming.net/parsememcparseface/').read() 

soup = bs.BeautifulSoup(source,'lxml') 

for paragraph in soup.find_all('p'): 
    print(paragraph.string) 
    print(str(paragraph.text)) 
+0

抽出しようとしているこれらの単語は何ですか? –

+2

この質問をするのは時期尚早です。学び続けます。 –

+0

@cᴏʟᴅsᴘᴇᴇᴅ私はインターネットとコンピュータという言葉を抽出しようとしています。あなたはそれで私を助けることができますか? –

答えて

0

あなたはその後、特定の文字列が中に表示される金額を見つけるために.count()メソッドを使用することができ、変数にそれを設定した後

soup.get_text() 

を使用して、ページ内のすべてのテキストを得ることができますHTMLページ。例えば

text = soup.get_text() 
print (text.count('word')) 

あなたがスペースですべてのものを分割して、リストの各インデックスに彼らのために見ることができるあなたは言葉内の単語を取得されていませんことを確認します。例えば、「家」は内部の「家」であり、これによって修正されます。

関連する問題