2012-03-24 11 views
1

これは私の初めての投稿ですので、私は初心者の間違いをappologiseします。また、すべての変数名が英語であるわけではないという事実をお許しください。私の問題は次のとおりです。私はこのコードをVisual Studio 2010とEclipseの両方でc/C++用にopenMPを使ってcygwin gccコンパイラツールチェーンを使って記述しました。ビジュアルではスピードアップが得られますが、日食ではシリアルバージョンの2倍の速度を落とします。誰かが私が間違ってやったことを説明してもらえますか?要するに、MPIを送信するために、3Dベクトルの配列から二重配列にコピーするときのスピードアップをシミュレートしています。あなたはループのためにこれを整理する方法から判断するとOpenMPヘルプコード

#include <omp.h> 
#include <time.h> 
#include <stdio.h> 
#include <vector> 
const int NUMAR_FORME=10; 
    const int NUMAR_SECUNDE_SIMULATE=60; //number of buffers 
    const int dimensiuni_forme[10]={100,200,300,400,500,600,700,800,900,10000}; //size of each buffer 
    //-------- the buffers, cuurently only worker_buffer and buff is used 
    std::vector<std::vector<std::vector<double> > > worker_buffer; 
    std::vector<std::vector<double> > send_buffer,corect; 
    double **buff; 
    double **worker_buffer1; 
    long i,j,k,l; 
int flag=0; 
int numarator=0; //number of tests runed 
clock_t start; 
start=clock(); 
worker_buffer.resize(1); 
buff = new double* [2]; 
int de_scris=0; //this tells me in which buffer to store, nou I alternate buff[0], buff[1], buff[0], buff[1] 
worker_buffer[0].resize(NUMAR_SECUNDE_SIMULATE); 
for(i=0;i<NUMAR_SECUNDE_SIMULATE;i++) 
    worker_buffer[0][i].resize(dimensiuni_forme[9]); 



while(numarator<60) 
{ 

     if(numarator!=0) 
      delete [] buff[de_scris]; 

    if(numarator!=0) 
     de_scris=(de_scris+1)%2; 
    long limita; 
    limita=NUMAR_SECUNDE_SIMULATE*dimensiuni_forme[9]*3; //3-comes from the fact that I will have a 3D vector structure 
    buff[de_scris]= new double [limita]; 
    for(i=0;i<NUMAR_SECUNDE_SIMULATE;i++) 
    { for(j=0;j<dimensiuni_forme[9];j++) 
     { 
      worker_buffer[0][i][j]=(i*dimensiuni_forme[9]+j)*3; 
      buff[de_scris][(i*dimensiuni_forme[9]+j)*3]=worker_buffer[0][i][j]; 
      buff[de_scris][(i*dimensiuni_forme[9]+j)*3+1]=worker_buffer[0][i][j]+0.5; 
      buff[de_scris][(i*dimensiuni_forme[9]+j)*3+2]=worker_buffer[0][i][j]+0.75; 
     } 
    } 
    numarator++; 

} 

start=clock()-start; 
printf("TICKS TOTAL %ld \n",start); 
bool ad=true; 
long nr; 
for(i=0;i<NUMAR_SECUNDE_SIMULATE*dimensiuni_forme[9]*3;i++) 
{ 
    if(i%3==0) 
     nr=i; 
    if(i%3==0 && buff[de_scris][i]!=i) 
     ad=false; 
    else 
     if(i%3==1 &&buff[de_scris][i]!=(nr+0.5)) 
      ad=false; 
     else 
      if(i%3==2 && buff[de_scris][i]!=(nr+0.75)) 
       ad=false; 
} 
if(ad==false) 
    printf("not correct \n"); 
start=clock(); 

    numarator=0; 
//parallel version 
while(numarator<60) 
{ 


     if(numarator!=0) 
      delete [] buff[de_scris]; 

    long index, limita,id; 
    omp_set_num_threads(2); 

    if(numarator!=0) 
     de_scris=(de_scris+1)%2; 
    limita=NUMAR_SECUNDE_SIMULATE*dimensiuni_forme[9]*3; //3- 
    buff[de_scris]= new double [limita]; 
#pragma omp parallel shared(worker_buffer,limita,buff) private(index,id) 
    { 
     printf("intram cu %d threaduri \n", omp_get_num_threads()); 
     id=omp_get_thread_num(); 
     //index=id; 
     for(index=id;(index*3)<limita;index+=omp_get_num_threads()) 
     { 
      buff[de_scris][index*3]=worker_buffer[0][index/dimensiuni_forme[9]][index%dimensiuni_forme[9]]; //aici va veni send_buff[index].x 
      buff[de_scris][index*3+1]=buff[de_scris][index*3]+0.5; 
      buff[de_scris][index*3+2]=buff[de_scris][index*3]+0.75; 
     } 

    // index+=omp_get_num_threads(); 


    }//end parallel zone 
    numarator++; 
} 

start=clock()-start; 
printf("TICKS TOTAL %ld \n",start); 
ad=true; 
    //testing for correctness 
for(i=0;i<NUMAR_SECUNDE_SIMULATE*dimensiuni_forme[9]*3;i++) 
{ 
    if(i%3==0) 
     nr=i; 
    if(i%3==0 && buff[de_scris][i]!=i) 
     ad=false; 
    else 
     if(i%3==1 &&buff[de_scris][i]!=(nr+0.5)) 
      ad=false; 
     else 
      if(i%3==2 && buff[de_scris][i]!=(nr+0.75)) 
       ad=false; 
} 
if(ad==false) 
    printf("not correct \n"); 
return 0; 
} 
+0

あなただけのコード内の時計機能との時間を測定するのですか?もしそうなら、あなたはclockが使用されたCPU時間を返すことを知るべきです。つまり、2人のprossesを使用すると、clock()によって返される時間はリアルタイムの2倍になります。私はvisucal C++がclock()関数を同じ方法で実装しているかどうかを100%確信しているわけではありません。 – Haatschii

+0

私はtime()とclock_gettime()を使用しようとしましたが、結果は同じです – Ray

答えて

1

for(index=id;(index*3)<limita;index+=omp_get_num_threads()) 
    { 
     buff[de_scris][index*3]=worker_buffer[0][index/dimensiuni_forme[9]][index%dimensiuni_forme[9]]; //aici va veni send_buff[index].x 
     buff[de_scris][index*3+1]=buff[de_scris][index*3]+0.5; 
     buff[de_scris][index*3+2]=buff[de_scris][index*3]+0.75; 
    } 

、あなたは4つのスレッドを持っていると仮定して、あなたのスレッドは、インターリーブインデックス値を取得します:

引き起こしている可能性
thread 0: 0, 4, 8, 12,... 
thread 1: 1, 5, 9, 13,... 
thread 2: 2, 6, 10, 14,... 
thread 3: 3, 7, 11, 15,... 

異なるスレッドによって書き込まれた値が同じキャッシュライン上にある可能性があるため、実行の速度が遅くなるため、キャッシュピンポン効果が発生します。

てみてくださいではなく、順番に連続パーティションを取得するには、静的なパーティショニングをループするための単純なを使用します

#pragma omp parallel for 
    for(index = 0; index < limita/3;index++) 
    { 
     buff[de_scris][index*3]=worker_buffer[0][index/dimensiuni_forme[9]][index%dimensiuni_forme[9]]; //aici va veni send_buff[index].x 
     buff[de_scris][index*3+1]=buff[de_scris][index*3]+0.5; 
     buff[de_scris][index*3+2]=buff[de_scris][index*3]+0.75; 
    } 
+0

あなたは本当にありがとう、私はあなたが書いたループを使用し、スピードアップを示しました。 forディレクティブを使用せずに視覚的にどのように速度を示したか不思議です。 – Ray

+0

@レイ:喜んで助けてください。それがあなたの問題を解決した場合、答えを受け入れることを忘れないでください。 – Tudor