2017-07-10 4 views
2

ウェブサイトからhtmlテーブルを削っているうちに、td.textの内容の先頭と末尾にあるすべての\ r \ n \ tを削除したいと思います。ここで ウェブデータのスクラップ中に r n tを削除できませんか?

がするので、私のコードです:

row.append(td.text.strip('\n').strip('\r').strip('\t').strip('"').strip().strip(':').strip(' ')) 

ストリップfunctonがなければ、結果は次のようになります。

[['BP/Age', 
    ': \r\n\r\n   USA/ 2', 
    'FirstName', 
    ':\r\n\t \t \r\n   Walker']] 

ストリップfunctonで
[['BP/Age', 
    ': \r\n\r\n   USA/ 2', 
    'FirstName', 
    ':\r\n\t \t \r\n   Walker\r\n\t \n\n']] 

が、結果はこのようになります

どうすれば残りの\ r \ n \ tを取り除くことができますか?

答えて

3

徐々に削除しないでください。次に、文字が表示される正確な順序を指定する必要があります。これはすべての文字列ではほとんど同じではなく、先頭と末尾の部分に順序を反映させる必要があります。

row.append(td.text.strip('\n\r\t": ')) 

デモ:あなたはすべてを一度に取り除くことができ

>>> ':\r\n\t \t \r\n   Walker\r\n\t \n\n'.strip('\n\r\t": ') 
'Walker' 
+0

素晴らしいが、それは本当に役立ちます。 –

+0

@ JAY.Y回答が役に立った場合は、受け入れることを検討することができます。 –

関連する問題