2017-07-09 9 views
0

こんにちはすべて私はいくつかのウェブサイトからテキストを抽出しようとしています すべてがうまくいきますが、スクリプトを実行すると、私は1つのウェブサイトを抽出します 3つのウェブサイトは 私はそれが間違ってやっている私は、私はあなたがファイルを毎回上書きされていると信じているファイルにリスト内のすべてのアイテムを処理する方法

おかげ

from bs4 import BeautifulSoup 
import requests 
import urllib3 
import certifi 

http = urllib3.PoolManager(
    cert_reqs='CERT_REQUIRED', 
    ca_certs=certifi.where()) 

domain =('https://www.betfair.com/exchange/', 'https://docs.python.org/3/library/urllib.parse.html','https://anaconda.org/pypi/urllib3') 
for url in domain: 
    page = requests.get(url, verify=True) 
    soup = BeautifulSoup(page.content, 'html.parser') 
    content = (soup.get_text().encode('utf-8')) 
    with open("article.txt", "w") as wa, open("article.txt", "r") as ra, open('outfile.txt', "w") as outfile: 
     wa.write(content) 
     for line in ra: 
      if not line.strip(): continue 
      outfile.write(line) 
+0

役に立てば幸い – frozen

+0

それはおかげで働いた – Mike

+0

また、リストではなくタプルとしてドメインを設定しています。あなたがドメインを割り当てているときに '[' 'ではなく[' 'を使用する] – Qiri

答えて

-1

をすべてdomian項目を抽出する必要があります。あなたはこのように、追加モードでファイルを開く必要がある理由です:

with open('filename.txt', 'a'): 
    ... 

はそれが私は、ファイルを開くときに「W」を持っているので、以前の情報を毎回上書きしていると思う

+0

しかし、私はスクリプトを使用するたびにファイルを消去する必要があると思います – Mike

関連する問題