2017-07-12 12 views
1

ファイルから読み込まれていますエンコードの問題。のPython:非ASCII文字を取り除く方法のpython、これは</p> <p><a href="https://i.stack.imgur.com/hIXm3.png" rel="nofollow noreferrer"><img src="https://i.stack.imgur.com/hIXm3.png" alt="data screenshot"></a></p> <p>有向グラフは、おそらくに起因しているように見えるデータの長いリストで、私が処理しています

SyntaxError: EOL while scanning string literal 
を読んで、私は openreadlinesのようなものを使用してスクリプトに、このようなファイルを読み込むときに今、エラーがある

29/07/2016 04:00:12 0.125143  

(私はこれらの文字は、このサイトに保存されるかどうかわかりません)

私はreplaceとregexの機能を知っています(または使い方を調べるかもしれませんが)私はスクリプトでそれらを実行できません。最大の問題は、私がそのような奇妙なキャラクターを含むか読むことがどこにあっても、エラーが発生し、それが読み取られる行を指していることです。だから私は彼らに何もできません

+0

が、これらはあなたを助けるかもしれないhttps://stackoverflow.com /質問/ 64749/M-文字・アット・エンド・オブ・ラインhttps://stackoverflow.com/questions/16695950/how-to-read-windows-file-in-linux-environment –

答えて

0

私はre.findall作品がわかります。 (私はこの仕事の重要性が消滅しているので、私は、他のすべてのメソッドをテストする時間がありません申し訳ありません、と私もこの質問自体を忘れてしまった。)

def extract_numbers(str_i): 
    pat="(\d+)/(\d+)/(\d+)\D*(\d+):(\d+):(\d+)\D*(\d+)\.(\d+)" 
    match_h = re.findall(pat, str_i) 
    return match_h[0] 

# .... 
# `f` is the handle of the file in question 
lines =f.readlines() 
for l in lines: 
    ls_f =extract_numbers(l) 
    # process them.... 
1

ファイルを読んでいますか?その場合は、余分な文字を削除しないように、正規表現を使用して値を抽出しよう:

re.search(r'^([\d/: ]{19})', line).group(1) 
re.search(r'([\d.]{7})', line).group(1) 
+0

より多くの情報を与えるためにありがとうしかし、申し訳ありませんが、私はこれを徹底的にテストする時間がありません(しかし、私はあなたをupvotedしています)。 – Aminopterin

関連する問題

 関連する問題