1
私はOpenACCに翻訳したシンプルなCUDAコードを持っています。私のカーネルはすべて期待どおりに並列化されていて、私のCUDAカーネルと似た性能を持っています。しかし、デバイスからホストへのメモリ転送は私のパフォーマンスを殺します。私のCUDAコードでは、固定メモリーを使用しており、パフォーマンスははるかに優れています。残念ながら、OpenACCでは、固定メモリをどのように利用するのか分かりません。私はドキュメンテーションで何も見つけることができませんでした。誰かが私にピン型メモリを利用する簡単なOpenACCの例を教えてくれますか?OpenACCの固定メモリ(PGIコンパイラを使用)
PS:私はPGI 16.10から0 64ビットコンパイラを使用しています
ありがとうたくさんの男!できます!あなたは最高です! – AstrOne