2017-05-28 7 views
0

私はパンダのデータフレームの文字列を分割してすべての '\ n'文字を削除するために複数の方法を使用しましたが、何らかの理由で他の単語に付けられた文字を削除したくない私はそれらを分割しましたが。私はBeautifulsoupを使ってWebページからテキストをキャプチャする列を持つパンダのデータフレームを持っています。テキストは既にcleansoupによって少しきれいにされていますが、他の文字に付けられた改行を削除できませんでした。私の文字列はこのように少し見える:パンダのデータフレームセルの乱雑な文字列から改行を削除しますか?

"ゲームのハンズオン\ n開発\ nプログラミング言語、スクリプト言語\ n、オペレーティングシステム、ファイルシステム、ネットワーク、シミュレーションなどのゲームには関係のないさまざまなソフトウェア技術を研究する\ nエンジニアリング、およびマルチメディアデザインシステムについて学びます。また、コンピュータサイエンスと関連する\ n分野のいくつかについて学びます。

これらの「\ n」文字を削除する簡単な方法はありますか?

ありがとうございます!

答えて

4

EDIT:これに対する正しい答えた:

DF = df.replace(R '\ n' は、」」、正規表現=真)

私はあなたがreplaceが必要だと思う:

df = df.replace('\n','', regex=True) 

または:

df = df.replace('\n',' ', regex=True) 

または:

df = df.replace(r'\\n',' ', regex=True) 

サンプル:厄介データで

text = '''hands-on\ndev nologies\nrelevant scripting\nlang 
''' 
df = pd.DataFrame({'A':[text]}) 
print (df) 
                A 
0 hands-on\ndev nologies\nrelevant scripting\nla... 

df = df.replace('\n',' ', regex=True) 
print (df) 
               A 
0 hands-on dev nologies relevant scripting lang 
+0

ありがとうございます!何らかの理由で、まだ動作していないように見えます。コードを正確にコピーして実行しようとしました。それから私はそれを適用する必要がある列にのみ適用しようとしました:運がない。次に、その列の各セルをループしてforループを実行し、cell.replace( 'n'、 '')を呼び出してみました。また何もない。私は個々の文字列を繰り返しているので、forループ置換呼び出しでは正規表現を使用できません。 – Calvin

+0

私はこの仕事がデータに依存していると思います。それでは[pickle](http://pandas.pydata.org/pandas-docs/stable/io.html#io-pickle)を作成し、それを自分のプロフィールのメールに送ってください。データが機密情報である場合、匿名化することは可能ですか? – jezrael

+0

送信されました! – Calvin

0

それはすべての空白df.replace(r'\s', '', regex = True, inplace = True)を削除することをお勧めすることがあります。

関連する問題