答えて

1

ここでは、Webページを1行ずつ読み上げる簡単な例を示します。しかし、HTMLがの行に分割されているという保証はありません。 (それは、彼らの1300年の上に、このケースである。)

import re 
import urllib.request 
from collections import Counter 

URL = 'https://simple.wikipedia.org/wiki/India' 

counter = Counter() 

with urllib.request.urlopen(URL) as source: 
    for line in source: 
     words = re.split(r"[^A-Z]+", line.decode('utf-8'), flags=re.I) 
     counter.update(words) 

for word in ['India', 'Indian', 'Indians']: 
    print('{}: {}'.format(word, counter[word])) 

OUTPUT

> python3 test.py 
India: 547 
Indian: 75 
Indians: 11 
> 

彼らはページだけでなく、コンテンツのHTML構造に現れる場合、これはまた、用語をカウントします。

コンテンツに集中したい場合は、推奨されているMediaWiki APIを使用してコンテンツを抽出するPywikibot python libraryを検討してください。ただし、これは避けようとしている「完全なページ」モデルに基づいているようです。それにかかわらず、そのモジュールのドキュメントは、あなたが見直したいかもしれない類似した、より高度なパッケージのリストを指しています。