複数のURLを読み込んで単語を生成するプログラム（英数字のみ）周波数テーブル

-1

私は、複数のURLを読み込んで単語（A-Za-z0-9という文字のみを含む）を生成するPythonプログラムを作成しています。出力は、これは私がこれまで持っているものである複数のURLを読み込んで単語を生成するプログラム（英数字のみ）周波数テーブル

url2.txt、url1.txt名前のファイルに保存することができます。

import urllib2 
import obo 

url = 'sample url' 

response = urllib2.urlopen(url) 
html = response.read() 
text = obo.stripTags(html).lower() 
wordlist = obo.stripNonAlphaNum(text) 


for s in sorteddict: 
    print str(s)

出典

2016-07-31 Noob User

そして、あなたの質問は...？ – EBH

さらに進めるには？続いてuser3091275の手順がありますが、インポートエラーが表示されますか？ –

あなたは簡単にテキストを抽出するためにboilerpipeを使用することができます：https://github.com/misja/python-boilerpipeを。

コードは次のようになります。

from boilerpipe.extract import Extractor 
from collections import Counter 

urls = ['url1', 'url2', ... ] # A list of the urls you want to fetch 
# Ask boilerpipe to fetch the data 
extractors = [Extractor(extractor='ArticleExtractor', url=url) for url in urls] 
# Ask boilerpipe to extract the text 
raw_texts = [extractor.getText() for extractor in extractors] 
# count the occurrences of words in each text 
word_counts = [Counter(text.split(" ")) for text in raw_texts]

出典

2016-07-31 18:31:54 user3091275

ありがとう、しかし、私はこれを実行します。次のエラーが表示されます。トレースバック（最新の呼び出しの最後）：boilerpipe.extract輸入抽出ファイルからでファイル "test0731.py"、1行目、「/Library/Python/2.7/site-packages/boilerpipe/extract/__init__.py 」、4行目は、輸入シャレードはImportErrorに：シャレードという名前のモジュール私は、見せかけのパッケージが –

インポートされますが、 'sudoのピップはboilerpipe'をインストールし使用してboilerpipeをインストールしましたことを確認しましたか？ – user3091275

はい、正しくインストールされ、成功しましたか？ –

複数のURLを読み込んで単語を生成するプログラム（英数字のみ）周波数テーブル

答えて

関連する問題