2015-12-20 9 views
6

私はIPythonノートブックでプロットしたい大規模なデータセットを持っています。IPython Notebook(Bokeh)で大きなデータセットをプロットする

私はread_csvを使ってパンダDataFrameに〜0.5ギガバイトの.csvファイルを読んで、これは約2分かかります。次に、私はこのデータをプロットしようとします。

data = pd.read_csv('large.csv') 
output_notebook() 
p1 = figure() 
p1.circle(data.index, data['myDataset']) 
show(p1) 

私のブラウザは回転しており、プロットは表示されません。私は、次のことを試してみました:

  1. output_file()代わりに、より管理しやすいものに私のデータをダウンサンプリングcircle()
  2. からsource引数としてColumnSourceオブジェクトを使用してoutput_notebook()
  3. グラフの。

Bokehは、「非常に大きなデータやストリーミングデータセットで高性能な対話機能を提供する」というWebサイトを主張しています。コンピュータを停止させずにこれらの大きなデータセットを視覚化するにはどうすればよいですか?

答えて

7

質問は、特定のコード提案を提供するには広すぎます。私はあなたが試みたダウンサンプリングの大きさが何か不思議です。 BokehのデフォルトのHTML Canvasは、何万ものサークルに確実に対応できます。いくつかのオプションがあります:

  • シンプル飛散やポイントの数十万人のラインのためには、有用である可能性がWebGLのバックエンドがあります。ボケServerを使用して

    http://bokeh.pydata.org/en/latest/docs/user_guide/webgl.html

  • 、それをレンダリングする前に、データをダウンサンプリングするボケアプリを作成します。いくつかのアプリの例がここにあります

    https://github.com/bokeh/bokeh/tree/master/examples/app

  • DataShaderライブラリは、大規模なデータセットのダウンサンプリングを実行するために使用される、とボケと非常によく統合することができます。 DataShaderは、米国の国勢調査データセット350万点で、here, starting at about 54:00をデモ/記述しています。

+0

こんにちは@bigreddotは私のこの質問を見てください、私は本当に解決策を得るのに苦労していますか? http://stackoverflow.com/questions/36207525/how-to-generate-multiple-plots-by-clicking-a-single-plot-for-more-infomation-usi – Sandy

+0

この質問は、Matplotlibについてではなく、ボケー。私はMatplotlibについてまったく分かりません。 – bigreddot

+0

あなたのクイック返信をありがとう、Bokehで私は私の要件を達成することができますか? – Sandy

関連する問題