いくつかのコードでは、対称実行列(Ax = lamba Bx)で一般化された固有値問題の自動ベクトルと自動値を取得する必要があります。このコードはLACPACKのDSPGVXを使用します。 MAGMA機能を使用してGPUでスピードアップしたかったのです。私たちは、行列の大きさ(N)は、分子内の原子の数に関連し、さらに100から50000まで行くと、このGPUで固有値と固有ベクトルを計算する際のパフォーマンスが低い
http://icl.cs.utk.edu/magma/docs/zhegvx_8cpp.html
については、このフォーラムに尋ね、答えを得ました。
a)Nが2500(約)より大きい場合、MAGMAは機能しません。セグメンテーションエラー b)MAGMAは常にLAPACKシーケンシャルよりも遅く約10倍遅く実行されます
この動作は正常ですか?誰もこの類似の問題に取り組んでいる誰かがまともなスピードアップを得る参照を報告することはできますか?あなたがより良い固有値に切り替えることにより、より高いパフォーマンスの利点を得ることができるかもしれ私の経験で
おかげ
「動作しません」という意味は...実行されませんか?それは間違った結果を生み出しますか?それは実行時にクラッシュして焼けますか? – prelic
これを実行しているGPUは何ですか? – talonmies
テスラc2070、4GBのRAM – flow