0
ディスクには〜1000のHDF5ファイルが保存されています。それぞれがメモリにロードするのに約10ミリ秒かかります。そのため、私は線形性能を向上させるために、それらを並列にロードする最良の方法が何であるか疑問に思っていました。Python - hdf5ファイルを並列に読む
私はマルチプロセッシングを試しましたが、プロセスをセットアップするオーバーヘッドのためにそれらをシリアルにロードするよりも遅くなります。私はCythonを見てきました、特にprangeですが、それを速くするために最適化するのに問題がありました。任意のポインタが評価されるだろう!
並列処理は処理時間を短縮するだけで、ディスクアクセス時間は短縮されないため、処理速度が向上するとは思いません。私は代わりにzipファイルにファイルを格納してパフォーマンスを得ることをお勧めします。 –
10msのすべてがディスクから読み取られている場合は、最初に処理を高速化することは可能でしょうか?あなたが100%の帯域幅を使用しているなら、何かできることはないと思いますよね? – JohanL
Cythonを使用してGILをマルチスレッド化することはできませんか?理論的には、IOバインドされたタスクの並列処理が可能になり、パフォーマンスが向上しますか? – Michael