2016-09-30 4 views
2

からDASKのデータフレームを作成します。 parser.readは、リストにして各辞書を収集し、その後、使用している(私はただのパンダを使用していた場合)、キーと値のペアの辞書が得られます。は怠惰私はなまけようになります発電機からDASKのデータフレームを作成するジェネレータ

df = pd.DataFrame(parsed_rows) 

DASKを作成するための最良の方法は何これからのデータフレーム?その理由は、a)返される結果の数が必ずしもわからないこと、およびb)配備されるマシンのメモリ割り当てがわからないことです。

代わりに私が(例えば、多分データフレームの束を作成し、その代わりにDASKにそれらを置く?)違っ

おかげで何をしなければなりません。

答えて

1

シングルマシンDaskスケジューラを使用する場合は、最初にいくつのファイルを必要としているかを知る必要があります。

filenames = repo.download_files() 
dataframes = [delayed(load)(filename) for filename in filenames] 
df = dd.from_delayed(dataframes) 

あなたがdistributed schedulerを使用している場合は、その場で新しい計算を追加することができますが、これはもう少し進んでいる。これは、次のようなものかもしれません。

関連する問題