私はyelpデータセットを扱っています。もちろん、何百万ものエントリがありますので、必要なものをダウンロードしたり、手動で削除しなければならない方法があれば疑問でした。たとえば、yelpは自動車修理から美容院までのすべてのレビューを持っていますが、私はレストランについてのレビューだけが必要です。だから私は全体を読んで、私が必要としない行をドロップする必要がありますか?pandasデータフレームにread_csvを使用してデータをダウンロードする前に、データをプレフィルタする方法はありますか?
答えて
あなたは.csv
ファイルを見ている、あなたが読んで、前処理chunks
ではなく、のように、完全なデータセットを読み込むしたと仮定すると:
df = pd.DataFrame()
chunksize = 100000
for chunk in pd.read_csv(filename, chunksize=chunksize):
process(chunk)
df = pd.concat([df, chunk])
あなたは元のデータセットに入るかを制御する能力を持っている場合は、もちろん、もっとうまくいくでしょう。
通常、すべてを読み込み、データセットをフィルタリングします。
しかし、実際にプリフィルタをかけたいと思っていて、システムのようなUNIXシステムを使用しているのであれば、grep
を使用して事前フィルタリングを行うことができます。
これらの間の妥協点は、PythonとPandasを使用してプレフィルターを作成し、データをダウンロードし、プレフィルター処理して(別のcsvに事前フィルターされたデータを書き込む)、プレフィルターされたデータで再生することです。
データセット全体をロードする必要がある回数に依存します。一度読んで破棄する必要がある場合は、事前フィルタリングする必要はありませんが、コードを操作しながらテストしたい場合それは多くの時間、prefilteringはあなたにいくつかの秒を節約することがあります。しかしもう一度、別の可能性があります:ipythonノートブックを使用すると、あなたはデータセットを読み込み、フィルタリングし、現在ロードされているこのデータセットで現在何時でも作業しているコードのブロックを実行できます。事前にフィルタリングされたデータセットをロードするよりも高速です。
本当の答えはここにありません。あなたの使い方や個人的な好みによって変わります。
実際にipythonノートブックを使ってみると、期待していたよりもはるかに高速でした!ありがとう! – mmera
- 1. Pandasデータフレームread_csvで不良データ
- 2. pickleファイルからpandasデータフレームにデータを取得する方法
- 3. sklearn pandasのデータフレームのデータを使用してバリューエラーを回避する方法が見つかりません
- 4. pandasデータフレームを使用したデータ操作
- 5. スクリプトを使用してデータをダウンロードする方法は?
- 6. pandas DataFrame:カスタムウェイを使用してデータフレームをカットする方法は?
- 7. pandasを使用してcsvからnumpy配列にデータをロードする方法
- 8. データフレーム内のデータをソートし、データフレーム内のデータにアクセスするには、日付別にインデックスを作成する方法はありますか?
- 9. Python pandas read_csv - データフレームにtgz-zippedデータセットをロードする
- 10. Pandas read_csv中にデータをトークン化する際のエラー。実際に悪い行を見る方法は?
- 11. to_sqlを使用してpandasデータフレーム列を保存する方法
- 12. Adwords APIからデータを引き出してPandasデータフレームに入れる方法
- 13. タイムゾーンを意識したdatetimesをタイムゾーンとして読み込む方法ローカルなDatetimeIndexとpandasでread_csvを使用する方法はありますか?
- 14. Pythonでpandasを使用してGoogleマップのGeoJSONにデータをエクスポートする方法
- 15. pandasを使用してデータ出力を結合したデータフレーム
- 16. 動的にdt.selectを使用してデータベースからグリッドにデータをバインドする方法はありますか?
- 17. 前の行を参照しながらpandasデータフレームを反復処理する方法はありますか?
- 18. pandasデータフレームをSparkデータフレームに変換するより効率的な方法はありますか?
- 19. モジュールにデータを設定して、Rubyのモジュールメソッドでデータを再利用する方法はありますか?
- 20. Javaを使用してMongodbにデータを重複して挿入する方法はありますか?
- 21. iOSでデータをダウンロードするためにdidfinshlaunchする前に呼び出せるメソッドはありましたか?
- 22. データをランダムにサンプリングする方法はありますか?
- 23. クリップボードにデータを追加する方法はありますか?
- 24. Pandasを使用して行データを列にピボットする
- 25. タプルを使用してデータフレームにデータを取り込む方法は?
- 26. データフレームからデータをデータにエクスポートする方法
- 27. データベースから「A」ビューにデータを表示する方法と、「codeigniter」内の同じデータを使用して「B」を表示する方法はありますか?
- 28. Firebaseを使用して1つのアクティビティからフラグメントにデータを転送する方法はありますか?
- 29. JavaScriptを使用してiPhoneアプリからBluetoothチップにデータを通信する方法はありますか?
- 30. Ruby on Railsを使用して、新しいテーブル行にデータを配置する方法はありますか?
どこからダウンロードしていますか? –
yelpデータセットからjsonファイルとしてダウンロードした後、コンバータを使用してCSVファイルに変更しました – mmera
どこから取得したかのリンクを共有できますか?フィルタリングする方法があると思います。 –