、それが各作業グループが自動的に64のスレッドを持つことになり、入力がVEC2配列であることから、それだけで、各VEC2でメインを通過することを知っていることを意味してい別スレッド?
はい、それはinvocations within a work group are definedです。
別のスレッドでそれぞれ、シェーダはすべてのVEC2入力用の10 VEC2を生成することであったと、私はそれらのそれぞれに異なる何かをしたい場合も、私は何をするでしょう。
どのようにすればそれはあなた次第です。しかし、はい、それは別のシェーダでなければなりません。計算シェーダはの呼び出しを呼び出しで作成できません。直接ではありません。
ワークグループ内に作業項目を入れる目的は、それらのローカル呼び出しが互いに通信し、何かを計算するのを助けることです。 shared
variables or barrier
callsがない場合は、ローカルサイズが何であるかは問題ではありません(機能の観点からではなく、ローカルサイズがパフォーマンスに影響する可能性があります)。
このように、特定のディスパッチ操作で押さえようとする作業量に基づいてローカルサイズを選択する必要があります。今では、vec2
を64の整数倍で処理する必要があります。同じグループの呼び出しが同じ値を読み取っている場合は、フルグループがどのくらいの作業を行うかを再評価する必要があります。
ワークグループ内の呼び出し数の制限は、ハードウェアに依存しますが、1024以上になります。したがって、遊ぶ余地があります。
あなたの新しいシステムでは、まだ64個の入力を処理する作業グループ呼び出しが必要な場合は、明らかに作業グループのローカルサイズは640でなければなりません。サイズは合計で80.
どのようなサイズを選択しても、実際にこれを指定する最も良い方法は、ローカルサイズに複数のディメンションがあるという事実を使用することです。 X次元は入力インデックスを参照する必要があり、Y次元はXの入力からの出力インデックスです。したがって、Yサイズは10、Xサイズは8または64、または任意のものになります。あなたの入力を取得するために行くとき
したがって、あなたが必要とするインデックスは次のとおりです。
const uvec3 size_mult = {1, gl_NumWorkGroups.x, gl_NumWorkGroups.x * gl_NumWorkGroups.y};
const uint input_index = gl_WorkGroupSize.x * dot(gl_WorkGroupID, size_mult) + gl_LocalInvocationID.x;
出力のためのインデックスは次のようになります。
const uint output_index = gl_WorkGroupSize.y * input_index + gl_LocalInvocationID.y;