0
記事全体を保存せずに処理すると、ウィキペディア記事の特定の単語の頻度をどのように得ることができますか?たとえば、この記事では「インド」という言葉がどのように表示されるのでしょうか。https://simple.wikipedia.org/wiki/IndiaWikiPediaの単語頻度記事
記事全体を保存せずに処理すると、ウィキペディア記事の特定の単語の頻度をどのように得ることができますか?たとえば、この記事では「インド」という言葉がどのように表示されるのでしょうか。https://simple.wikipedia.org/wiki/IndiaWikiPediaの単語頻度記事
ここでは、Webページを1行ずつ読み上げる簡単な例を示します。しかし、HTMLがの行に分割されているという保証はありません。 (それは、彼らの1300年の上に、このケースである。)
import re
import urllib.request
from collections import Counter
URL = 'https://simple.wikipedia.org/wiki/India'
counter = Counter()
with urllib.request.urlopen(URL) as source:
for line in source:
words = re.split(r"[^A-Z]+", line.decode('utf-8'), flags=re.I)
counter.update(words)
for word in ['India', 'Indian', 'Indians']:
print('{}: {}'.format(word, counter[word]))
OUTPUT
> python3 test.py
India: 547
Indian: 75
Indians: 11
>
彼らはページだけでなく、コンテンツのHTML構造に現れる場合、これはまた、用語をカウントします。
コンテンツに集中したい場合は、推奨されているMediaWiki APIを使用してコンテンツを抽出するPywikibot python libraryを検討してください。ただし、これは避けようとしている「完全なページ」モデルに基づいているようです。それにかかわらず、そのモジュールのドキュメントは、あなたが見直したいかもしれない類似した、より高度なパッケージのリストを指しています。