2016-07-31 2 views
-1

私は、複数のURLを読み込んで単語(A-Za-z0-9という文字のみを含む)を生成するPythonプログラムを作成しています。出力は、これは私がこれまで持っているものである複数のURLを読み込んで単語を生成するプログラム(英数字のみ)周波数テーブル

url2.txt、url1.txt名前のファイルに保存することができます。

import urllib2 
import obo 

url = 'sample url' 

response = urllib2.urlopen(url) 
html = response.read() 
text = obo.stripTags(html).lower() 
wordlist = obo.stripNonAlphaNum(text) 


for s in sorteddict: 
    print str(s) 
+1

そして、あなたの質問は...? – EBH

+0

さらに進めるには?続いてuser3091275の手順がありますが、インポートエラーが表示されますか? –

答えて

0

あなたは簡単にテキストを抽出するためにboilerpipeを使用することができます:https://github.com/misja/python-boilerpipeを。

コードは次のようになります。

from boilerpipe.extract import Extractor 
from collections import Counter 

urls = ['url1', 'url2', ... ] # A list of the urls you want to fetch 
# Ask boilerpipe to fetch the data 
extractors = [Extractor(extractor='ArticleExtractor', url=url) for url in urls] 
# Ask boilerpipe to extract the text 
raw_texts = [extractor.getText() for extractor in extractors] 
# count the occurrences of words in each text 
word_counts = [Counter(text.split(" ")) for text in raw_texts] 
+0

ありがとう、しかし、私はこれを実行します。次のエラーが表示されます。 トレースバック(最新の呼び出しの最後):boilerpipe.extract輸入抽出 ファイルからで ファイル "test0731.py"、1行目、「/Library/Python/2.7/site-packages/boilerpipe/extract/__init__.py 」、4行目は、 輸入シャレード はImportErrorに:シャレード という名前のモジュール私は、見せかけのパッケージが –

+0

インポートされますが、 'sudoのピップはboilerpipe'をインストールし使用してboilerpipeをインストールしましたことを確認しましたか? – user3091275

+0

はい、正しくインストールされ、成功しましたか? –

関連する問題