私はパンダで5千万行のデータフレームを扱っています。私は列を通過し、テキストの特定の部分を抽出する必要があります。列には4つまたは5つのパターンで定義された文字列値があります。私はテキストを抽出し、元の文字列を置き換える必要があります。私はこのためにapply関数と正規表現を使用しています。これは実行するのに一日近くかかります。私はこれが非効率的だと感じます。それともこれは普通ですか?それを速くするために欠けているアプローチがありますか?パンダで5千万の行を処理する(Python)
答えて
はここにドキュメントです:
http://pandas.pydata.org/pandas-docs/stable/indexing.html
http://pandas.pydata.org/pandas-docs/stable/text.html#extracting-substrings
交換テキストは簡単です。いいえ一日は正常ではありません。この投稿の以前のバージョンで持っていたすべてのリストを取り除く。あなたはそれらを必要としません。データのスペースがさらに必要な場合は、データフレームに列を追加します。データ型を学習してデータを小さくします。
import pandas as pd
df = pd.DataFrame() #import your data at this step
df['column'].str.extract(regex_thingy_here)
私は詳細を書いていますが、コードを削除しました。
入力いただきありがとうございます。それは本当にうまくいって、5分以内に仕事を終えることができます。私は最後のステップとしてstr.extract関数を使用しましたが、仕事を簡単にするためには重要でした。もう一度ありがとう!私の返答が遅れて申し訳ありません。 – Vatsan28
それはうまくいった。フィードバックいただきありがとうございます。 – Back2Basics
- 1. 反復処理 - パンダ/ Pythonの
- 2. 数百万行のクエリ処理のパフォーマンスチューニング
- 3. 千万人(エクセル/ googlesheets)
- 4. 大規模なデータセット(数千万行)
- 5. PythonのパンダIのpython-パンダで特定の行をフィルタ処理しようとしています
- 6. 何百万行の行を処理するアプリケーション用に使用するデータベース
- 7. Rのデータフレームで120万行のJSONクエリを高速に処理する方法
- 8. 数百万行を処理できるXLSXドキュメントを作成するためのPython(またはC)ライブラリ
- 9. 何千ものファイルを外部コマンドで多重処理する
- 10. パンダのデータフレーム千鳥0の
- 11. 剣道UIグリッドで100万レコードを処理する
- 12. IISは何千ものAppPools /ワーカープロセスを処理できますか?
- 13. 3百万個のPandasデータフレーム行を効率的に処理する
- 14. NetLogoは何百万ものエージェントを処理できますか?
- 15. 何百万ものSQLクエリを処理するため
- 16. 5分ごとに150万行のデータセットを置換する
- 17. 私は、次のforamtで時系列データを処理するためのpython /パンダを使用していパンダ
- 18. CouchDBは毎日1500万レコードを処理できますか?
- 19. Pythonで処理するスレッド
- 20. Pythonのパンダ - GROUPBY内部反復処理は、時間差
- 21. SSASメジャーを数千または数百万で表示
- 22. タペストリーで強制型エラー処理が実行される5
- 23. Pythonでリクエストを処理してGETリクエストを処理する
- 24. Pythonで複数行のSQL文を処理する方法
- 25. PowerBuilder 5でエラー処理を行う方法は?
- 26. 反応jsとセイルで数百万のレコードを処理する方法js
- 27. Shiny DataTablesのフォーマット番号をK(千)、M(百万)に変換
- 28. Windows Mobile 5例外処理
- 29. C#でcultureinfoを使用して百万円( ')と千(。)を設定するには
- 30. Pythonのパンダは、行
多くのコードを貼り付けて「助けて」と言うのは、一般的には眉をひそめます!もっと良いことに、*** [MCVE](http://stackoverflow.com/help/mcve)***を読んで、他の人があなたを助けてくれる情報であなたの質問を編集してください。 – piRSquared