WikiPediaの単語頻度記事

記事全体を保存せずに処理すると、ウィキペディア記事の特定の単語の頻度をどのように得ることができますか？たとえば、この記事では「インド」という言葉がどのように表示されるのでしょうか。https://simple.wikipedia.org/wiki/India WikiPediaの単語頻度記事

出典

2017-10-11 Sarthak Gupta

ここでは、Webページを1行ずつ読み上げる簡単な例を示します。しかし、HTMLがの行に分割されているという保証はありません。（それは、彼らの1300年の上に、このケースである。）

import re 
import urllib.request 
from collections import Counter 

URL = 'https://simple.wikipedia.org/wiki/India' 

counter = Counter() 

with urllib.request.urlopen(URL) as source: 
    for line in source: 
     words = re.split(r"[^A-Z]+", line.decode('utf-8'), flags=re.I) 
     counter.update(words) 

for word in ['India', 'Indian', 'Indians']: 
    print('{}: {}'.format(word, counter[word]))

OUTPUT

> python3 test.py 
India: 547 
Indian: 75 
Indians: 11 
>

彼らはページだけでなく、コンテンツのHTML構造に現れる場合、これはまた、用語をカウントします。

コンテンツに集中したい場合は、推奨されているMediaWiki APIを使用してコンテンツを抽出するPywikibot python libraryを検討してください。ただし、これは避けようとしている「完全なページ」モデルに基づいているようです。それにかかわらず、そのモジュールのドキュメントは、あなたが見直したいかもしれない類似した、より高度なパッケージのリストを指しています。

出典

2017-10-11 08:28:50 cdlane

答えて

関連する問題