urllibからのフィルタre re

私がしようとしているのは、可変文字列としてウェブサイトのhtml応答を取得し、ドット（。）、数字（0-9）、コロン（：）。私はre.subとこの権利を得るように見えない。出来ますか？urllibからのフィルタre re

import urllib.request 
import re 

ans = True 

while ans: 
    print(""" 
     - Menu Selection - 
     1. Automatic 
     2. Automatic w/Checker 
     3. Manual 
     4. Add to list 
     5. Exit 
     """) 
ans = input('Select Option : ') 

if ans =="1": 
    try : 
     with urllib.request.urlopen('http://www.mywebsite.net') as response: 
      html = response.read() 
      html = str(html) 
      html = re.sub(r'([a-z][A-Z])', '', html) 
      f = open('text.txt','a') 
      f.write(html) 
      f.close() 
      print('Data(1) saved.') 
      ans = True 
    except : 
      print('Error on first fetch.')

これは、HTMLコード全体を出力し、いずれの文字も除外しません。すべてのヘルプは高く評価され:)

出典

2016-05-22 dexray

あなたがフィルターに何かをしようとした、あなたのプログラムを実行できるように貼り付けコードをご検討ください文字を出す？ – glls

は、コードの全体に入りました。私は、HTML = re.sub（R '（[-z]は[A-Z]）'、 ''、HTML）で試みられているが、これはまだ動作しません。 – dexray

はあなたが言及した3つのことを除外すると、次のようにパターンを作るために持っている - ここにHTMLがあなたの入力文字列である

re.sub('[^0-9\.:]', '', html)

出典

2016-05-22 20:34:17 minocha

これで解決しました。どうもありがとうございました。 – dexray

まだ評判が足りません：| | 。私がそこに着くとすぐにやるよ。 – dexray

:)問題ありません... – minocha

我々はhtml = re.sub('[0-9.:]', '', html)をしたいです。ので、すべての文字列関数は（Pythonでは不可能である）その場でそれらを修正するのではなく、新しい文字列を返します。文字列を変更する唯一の方法は、新しい文字列を構築することであるので、文字列はPythonで不変です。この新しい文字列は、ある変数に代入されなければなりません。そうしないと、永遠に失われます（例のように）。

出典

2016-05-22 19:59:50

ありがとうございました。しかし、私はまだre.sub関数を意図したとおりに動作させることができません。 – dexray

他の回答で@minochaで述べたように、私は、あなたの正規表現に誤りを逃しました。 –

urllibからのフィルタre re

答えて

関連する問題