reduction

    2

    1答えて

    私は、マークハリスによるCUDAの並列リダクションの最適化に関するプレゼンテーションを読んでいました。ここで私は問題を持っているスライドです: は、それは、この方法では、バンク競合の問題があると言います。しかし、なぜ?すべてのスレッドは、異なるバンクにある2つの連続するメモリセルにアクセスしています。どちらも特定のメモリセルに同時にアクセスしません。

    1

    1答えて

    2次元の大きさがM×Nであり、Nは2以上の累乗であり、Mは2の累乗ではない任意の整数です。例えば、配列Aのサイズは200x32です。 配列の行全体でreduce(add)操作を行うことで、配列Aをサイズ1x32に縮小したいと考えています。 Blelloch/Hillisスキャンアルゴリズムを使用して連続する要素を追加することで、私がやってきた削減の大半は配列を単一の値に減らします。しかし私の場合、

    0

    1答えて

    numpyを使用して、反復位置への配列操作マッピングが減少することを保証する方法はありますか? a = numpy.zeros([4], int) # [0 0 0 0] b = numpy.arange(0, 8) # [0 1 2 3 4 5 6 7] positions = [0, 0, 1, 1, 2, 2, 3, 3] a[positions] += b # desir

    0

    1答えて

    私はGPUで縮小を実行しようとしています。つまり、配列のすべての要素から最大値を見つけることを試みています。 Nvidia hereからチュートリアルがあります。最も簡単な方法についてはスライド7としましょう 私の唯一の問題は、配列が巨大であることです!それは40億要素に達することができます。スライド7のサンプルコードから、ブロック共有メモリとグローバルメモリの間で前後にコピーする必要があり、現在

    -1

    1答えて

    import math def roundup(x): return int(math.ceil(x/10.0)) * 10 w=0 while w == 5: print("Would you like to *work out* a missing letter in a GTIN-8 code, or *check* a code?") response = input(":")

    2

    1答えて

    線形計画問題の制約で係数を減らした結果を少し混乱させます。 問題がある: maximize z = x1 + x2 + x3 + x4 + x5 + x6 subject to: 6*x1 + 3*x2 - 5*x3 + 2*x4 + 7*x5 - 4*x6 <= 15 where: 1<=x1<=2 continuos 1<=x2<=2 continuos

    2

    1答えて

    Iが平坦アレイb有する: a = numpy.array([0, 1, 1, 2, 3, 1, 2]) そして各 "チャンク" の開始をマーキングインデックスの配列をc: b = numpy.array([0, 4]) 私は縮小を使用して、各「チャンク」の最大値を見つけることができます知っている: m = numpy.maximum.reduceat(a,b) >>> array([2,

    2

    1答えて

    は、次のnumpyの配列arrayを考えてみましょう。 私はこの配列のbitwise_and削減を実行したい: y = np.bitwise_and.reduce(x) は、私は結果があることを期待: 2 配列の各要素が同じであるので、その連続したとの得なければなりません同じ結果ですが、代わりに私は得る: 0 なぜ矛盾ですか? reduceのdocstringで

    1

    3答えて

    私はこのようになりますパンダ(バージョン0.17.1)DATAFRAMEで働いています : time type module msg_type content 36636 2016-08-25 17:59:50.051 INFO MOD_1_NAME STATUS Received Status Monitoring from MODULE_1 'Property A' = s