これは私の初めての投稿ですので、私は初心者の間違いをappologiseします。また、すべての変数名が英語であるわけではないという事実をお許しください。私の問題は次のとおりです。私はこのコードをVisual Studio 2010とEclipseの両方でc/C++用にopenMPを使ってcygwin gccコンパイラツールチェーンを使って記述しました。ビジュアルではスピードアップが得られますが、日食ではシリアルバージョンの2倍の速度を落とします。誰かが私が間違ってやったことを説明してもらえますか?要するに、MPIを送信するために、3Dベクトルの配列から二重配列にコピーするときのスピードアップをシミュレートしています。あなたはループのためにこれを整理する方法から判断するとOpenMPヘルプコード
#include <omp.h>
#include <time.h>
#include <stdio.h>
#include <vector>
const int NUMAR_FORME=10;
const int NUMAR_SECUNDE_SIMULATE=60; //number of buffers
const int dimensiuni_forme[10]={100,200,300,400,500,600,700,800,900,10000}; //size of each buffer
//-------- the buffers, cuurently only worker_buffer and buff is used
std::vector<std::vector<std::vector<double> > > worker_buffer;
std::vector<std::vector<double> > send_buffer,corect;
double **buff;
double **worker_buffer1;
long i,j,k,l;
int flag=0;
int numarator=0; //number of tests runed
clock_t start;
start=clock();
worker_buffer.resize(1);
buff = new double* [2];
int de_scris=0; //this tells me in which buffer to store, nou I alternate buff[0], buff[1], buff[0], buff[1]
worker_buffer[0].resize(NUMAR_SECUNDE_SIMULATE);
for(i=0;i<NUMAR_SECUNDE_SIMULATE;i++)
worker_buffer[0][i].resize(dimensiuni_forme[9]);
while(numarator<60)
{
if(numarator!=0)
delete [] buff[de_scris];
if(numarator!=0)
de_scris=(de_scris+1)%2;
long limita;
limita=NUMAR_SECUNDE_SIMULATE*dimensiuni_forme[9]*3; //3-comes from the fact that I will have a 3D vector structure
buff[de_scris]= new double [limita];
for(i=0;i<NUMAR_SECUNDE_SIMULATE;i++)
{ for(j=0;j<dimensiuni_forme[9];j++)
{
worker_buffer[0][i][j]=(i*dimensiuni_forme[9]+j)*3;
buff[de_scris][(i*dimensiuni_forme[9]+j)*3]=worker_buffer[0][i][j];
buff[de_scris][(i*dimensiuni_forme[9]+j)*3+1]=worker_buffer[0][i][j]+0.5;
buff[de_scris][(i*dimensiuni_forme[9]+j)*3+2]=worker_buffer[0][i][j]+0.75;
}
}
numarator++;
}
start=clock()-start;
printf("TICKS TOTAL %ld \n",start);
bool ad=true;
long nr;
for(i=0;i<NUMAR_SECUNDE_SIMULATE*dimensiuni_forme[9]*3;i++)
{
if(i%3==0)
nr=i;
if(i%3==0 && buff[de_scris][i]!=i)
ad=false;
else
if(i%3==1 &&buff[de_scris][i]!=(nr+0.5))
ad=false;
else
if(i%3==2 && buff[de_scris][i]!=(nr+0.75))
ad=false;
}
if(ad==false)
printf("not correct \n");
start=clock();
numarator=0;
//parallel version
while(numarator<60)
{
if(numarator!=0)
delete [] buff[de_scris];
long index, limita,id;
omp_set_num_threads(2);
if(numarator!=0)
de_scris=(de_scris+1)%2;
limita=NUMAR_SECUNDE_SIMULATE*dimensiuni_forme[9]*3; //3-
buff[de_scris]= new double [limita];
#pragma omp parallel shared(worker_buffer,limita,buff) private(index,id)
{
printf("intram cu %d threaduri \n", omp_get_num_threads());
id=omp_get_thread_num();
//index=id;
for(index=id;(index*3)<limita;index+=omp_get_num_threads())
{
buff[de_scris][index*3]=worker_buffer[0][index/dimensiuni_forme[9]][index%dimensiuni_forme[9]]; //aici va veni send_buff[index].x
buff[de_scris][index*3+1]=buff[de_scris][index*3]+0.5;
buff[de_scris][index*3+2]=buff[de_scris][index*3]+0.75;
}
// index+=omp_get_num_threads();
}//end parallel zone
numarator++;
}
start=clock()-start;
printf("TICKS TOTAL %ld \n",start);
ad=true;
//testing for correctness
for(i=0;i<NUMAR_SECUNDE_SIMULATE*dimensiuni_forme[9]*3;i++)
{
if(i%3==0)
nr=i;
if(i%3==0 && buff[de_scris][i]!=i)
ad=false;
else
if(i%3==1 &&buff[de_scris][i]!=(nr+0.5))
ad=false;
else
if(i%3==2 && buff[de_scris][i]!=(nr+0.75))
ad=false;
}
if(ad==false)
printf("not correct \n");
return 0;
}
あなただけのコード内の時計機能との時間を測定するのですか?もしそうなら、あなたはclockが使用されたCPU時間を返すことを知るべきです。つまり、2人のprossesを使用すると、clock()によって返される時間はリアルタイムの2倍になります。私はvisucal C++がclock()関数を同じ方法で実装しているかどうかを100%確信しているわけではありません。 – Haatschii
私はtime()とclock_gettime()を使用しようとしましたが、結果は同じです – Ray