2011-08-06 15 views
4

NVIDIA Fermiアーキテクチャのパフォーマンスカウンタの名前(cudaのdocフォルダにあるCompute_profiler.txt)を見ると、L2キャッシュミスには2つのパフォーマンスカウンタl2_subp0_read_sector_misses l2_subp1_read_sector_misses。彼らはL2の2つのスライスのためだと彼らは言った。NVIDIAのL2キャッシュFermi

なぜL2のスライスが2つありますか?ストリーミングマルチプロセッサアーキテクチャとの関係はありますか?この部門がパフォーマンスに与える影響は?

おかげ

答えて

1

私は、ストリーミングマルチプロセッサと直接関係がないと思います。

私はスライスが銀行のメモリと同等だと思っています。

「合計」L2読み取りミスを得るには、2つの値を合計します。

1

「CUDA Cプログラミングガイド」では、マルチプロセッサのアーキテクチャについて説明します。ドキュメントには、各フェルミマルチプロセッサに2つのワープスケジューラがあることが記載されています。私はL2キャッシュが分割されていることを前提としています。

私はケプラーアーキテクチャのL2読み取りミスを見ていませんが、ケプラーマルチプロセッサには4つのワーププロセッサーがあります。したがって、ケプラーのコンパイルで4つのパフォーマンスカウンターが報告されている場合、この前提が検証される可能性があります。

+0

私は考えが好きです。これが確認されたら私は見ていきます。 – Zk1001

関連する問題