パンダのデータフレームセルの乱雑な文字列から改行を削除しますか？

私はパンダのデータフレームの文字列を分割してすべての '\ n'文字を削除するために複数の方法を使用しましたが、何らかの理由で他の単語に付けられた文字を削除したくない私はそれらを分割しましたが。私はBeautifulsoupを使ってWebページからテキストをキャプチャする列を持つパンダのデータフレームを持っています。テキストは既にcleansoupによって少しきれいにされていますが、他の文字に付けられた改行を削除できませんでした。私の文字列はこのように少し見える：パンダのデータフレームセルの乱雑な文字列から改行を削除しますか？

"ゲームのハンズオン\ n開発\ nプログラミング言語、スクリプト言語\ n、オペレーティングシステム、ファイルシステム、ネットワーク、シミュレーションなどのゲームには関係のないさまざまなソフトウェア技術を研究する\ nエンジニアリング、およびマルチメディアデザインシステムについて学びます。また、コンピュータサイエンスと関連する\ n分野のいくつかについて学びます。

これらの「\ n」文字を削除する簡単な方法はありますか？

ありがとうございます！

出典

2017-05-28 Calvin

EDIT：これに対する正しい答えた：

DF = df.replace（R '\ n' は、」」、正規表現=真）

私はあなたがreplaceが必要だと思う：

df = df.replace('\n','', regex=True)

または：

df = df.replace('\n',' ', regex=True)

または：

df = df.replace(r'\\n',' ', regex=True)

サンプル：厄介データで

text = '''hands-on\ndev nologies\nrelevant scripting\nlang 
''' 
df = pd.DataFrame({'A':[text]}) 
print (df) 
                A 
0 hands-on\ndev nologies\nrelevant scripting\nla... 

df = df.replace('\n',' ', regex=True) 
print (df) 
               A 
0 hands-on dev nologies relevant scripting lang

出典

2017-05-28 13:22:25 jezrael

ありがとうございます！何らかの理由で、まだ動作していないように見えます。コードを正確にコピーして実行しようとしました。それから私はそれを適用する必要がある列にのみ適用しようとしました：運がない。次に、その列の各セルをループしてforループを実行し、cell.replace（ 'n'、 ''）を呼び出してみました。また何もない。私は個々の文字列を繰り返しているので、forループ置換呼び出しでは正規表現を使用できません。 – Calvin

私はこの仕事がデータに依存していると思います。それでは[pickle]（http://pandas.pydata.org/pandas-docs/stable/io.html#io-pickle）を作成し、それを自分のプロフィールのメールに送ってください。データが機密情報である場合、匿名化することは可能ですか？ – jezrael

送信されました！ – Calvin

それはすべての空白df.replace(r'\s', '', regex = True, inplace = True)を削除することをお勧めすることがあります。

出典

2017-10-29 12:31:43

パンダのデータフレームセルの乱雑な文字列から改行を削除しますか？

答えて

関連する問題