2017-03-22 9 views
0
(2, 43) 0.74670222994 
(3, 15) 0.74132892839 
(3, 31) 0.671141877647 
(4, 19) 0.699490245832 
(4, 47) 0.422715095257 
(4, 48) 0.433278265941 
(4, 0) 0.379862196713 
(5, 19) 0.653731227092 
(5, 72) 0.756726821729 

上記はファイルに書き込まれたtfidf行列です。 私は0.74132892839のようなtf-idf値だけを読んで、それらをリストに追加したいと思います。Pythonでカスタム正規表現を使用してテキストを削除する

f.read()を実行してインデックスを削除する方法はありますか? re.sub()関数を用い

答えて

0

シンプルなソリューション:

import re 

# specify your actual file name 
with open('lines.txt', 'r') as fh: 
    result = re.sub(r'\([^)]+\)\s*', '', fh.read()).split('\n') 

print(result) 

出力:

['0.74670222994', '0.74132892839', '0.671141877647', '0.699490245832', '0.422715095257', '0.433278265941', '0.379862196713', '0.653731227092', '0.756726821729'] 

\([^)]+\)

は - 括弧

間の配列と一致します
関連する問題