TensorFlow 2gpuより遅く単一のgpu

私は2つのgpu（TitanX（パスカル）とGTX 1080）を持っています。私はシングルスレッドグラフ計算を実行しようとしています。グラフは、2つの別々の行列乗算チェーンです（それぞれ対応するgpuに割り当てられています）。ここで TensorFlow 2gpuより遅く単一のgpu

は、私が使用しているコードです：

輸入tensorflowをNP 輸入ランダムインポート時輸入ロギングなど輸入numpyのTFとしてそれは20.4秒を要し

from tensorflow.python.ops import init_ops 
from tensorflow.python.client import timeline 


def test(): 
    n = 5000 

    with tf.Graph().as_default(): 
     A1 = tf.placeholder(tf.float32, shape=[n, n], name='A') 
     A2 = tf.placeholder(tf.float32, shape=[n, n], name='A') 
     with tf.device('/gpu:0'): 
      B1 = A1 
      for l in xrange(10): 
       B1 = tf.matmul(B1, A1) 

     with tf.device('/gpu:1'): 
      B2 = A2 
      for l in xrange(10): 
       B2 = tf.matmul(B2, A2) 
      C = tf.matmul(B1, B2) 

     run_metadata = tf.RunMetadata() 
     with tf.Session(config=tf.ConfigProto(log_device_placement=True)) as sess: 
      start = time.time() 
      logging.info('started') 
      A1_ = np.random.rand(n, n) 
      A2_ = np.random.rand(n, n) 
      sess.run([C], 
        feed_dict={A1: A1_, A2: A2_}, 
        options=tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE), 
        run_metadata=run_metadata) 
      logging.info('writing trace') 
      trace = timeline.Timeline(step_stats=run_metadata.step_stats) 
      trace_file = open('timeline.ctf.json', 'w') 
      trace_file.write(trace.generate_chrome_trace_format()) 
      logging.info('trace written') 
      end = time.time() 
      logging.info('computed') 
      logging.info(end - start) 


if __name__ == "__main__": 
    logging.basicConfig(level=logging.INFO, format='%(asctime)s %(message)s') 
    test()

終わり。
すべての操作をgpu0（TitanX）に設定すると14秒かかります。
すべての操作をgpu1（GTX 1080）に設定すると、終了までに19.8秒かかります。

テンソルフローがgpusの両方を検出し、すべてのデバイスを正しく設定していることがわかります。なぜ2つのGPUを1つではなくスピードアップしないのですか？ gpusが異なるモデル（AFAIKのcudaはそれを可能にする）であるという問題かもしれませんか？

ありがとうございました。

EDIT 私はそうtensorflowは、いくつかの最適化を行うように思われるので、両方の鎖のために異なる初期行列を使用するようにコードを更新しました。ここで

は、タイムラインプロファイルJSONファイルのリンクです：https://api.myjson.com/bins/23csi

Screenshot

このタイムラインは、答えよりも多くの問題を提起：

PID 7（gpu0）は、実行の2行を持っているのはなぜ？
pid 3と5の長いMatMulsとは何ですか？
すべてのオペアンプは小さいが多い5.
gpu0のexecept pidの上で実行されているようだ（ "_recv_A_0/_3"、名前 "MATMUL"、OP "MATMUL" INPUT1、 "_recv_A_0/_3" INPUT 0） MatMulの操作（スクリーンショットから見ることはできません）は、pid 3とpid 5の長いMatMuls操作の直後です。これは何ですか？

出典

2016-11-03 MikleB

あなたはまた、あなたが 'sess.run（C.opを行うことができ、ボトルネックhttps://github.com/tensorflow/tensorflow/issues/1824#issuecomment-225754659 –

だものを見るためにタイムラインを見ることができます）は 'sess.run（C）'の代わりに '' sess.Run（C） ''の代わりにTensorFlow-> Pythonをあなたのタイミングから転送します –

セッションのコンストラクタで "TypeError：__init __（）に予期しないキーワード引数 'run_metadata' 9月16日のソースで、pipから再インストールしようとしましたが（同じエラーが発生しました） – MikleB

GPUでカーネルを初めて起動すると、PTXASのコンパイルによって発生する可能性があります。この遅れは秒単位であり、GPUを2つ以上使用すると累積します。したがって、時間が "初期カーネルの初期起動"によって支配されるため、実行が遅くなる場合があります。純粋な計算時間をベンチマークする1つの方法は、各GPU上で各cuda演算を少なくとも1回実行することによって「事前加温」することです。私は2枚のTitanXカードでベンチマークを実行することで同じ遅さを観察しましたが、この遅延はカーネルを「予熱した」ときに消えました。ここで

は、事前に温暖化の前にあります：

はここで事前に温めた後だ：以下あなたのコードは事前温暖化を行うために、また、任意のTensorFlow <削除するように変更される - > Pythonの転送を。

import tensorflow as tf 

from tensorflow.python.ops import init_ops 
from tensorflow.python.client import timeline 
import logging, time 
import numpy as np 

def test(): 
    n = 5000 

    with tf.device('/gpu:0'): 
     A1 = tf.Variable(tf.ones_initializer(shape=[n, n]), name='A1') 
     B1 = A1 
     for l in xrange(10): 
      B1 = tf.matmul(A1, B1, name="chain1") 

    with tf.device('/gpu:1'): 
     A2 = tf.Variable(tf.ones_initializer(shape=[n, n]), name='A2') 
     B2 = A2 
     for l in xrange(10): 
      B2 = tf.matmul(A2, B2, name="chain2") 
     C = tf.matmul(B1, B2) 

    run_metadata = tf.RunMetadata() 
    start = time.time() 
    logging.info('started') 
    sess = tf.InteractiveSession(config=tf.ConfigProto(allow_soft_placement=False, log_device_placement=True)) 
    sess.run(tf.initialize_all_variables()) 
    # do warm-run 
    sess.run([C.op], 
      options=tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE), 
      run_metadata=run_metadata) 
    run_metadata = tf.RunMetadata() 
    sess.run([C.op], 
      options=tf.RunOptions(trace_level=tf.RunOptions.FULL_TRACE), 
      run_metadata=run_metadata) 
    logging.info('writing trace') 
    trace = timeline.Timeline(step_stats=run_metadata.step_stats) 
    trace_file = open('timeline.ctf.json', 'w') 
    trace_file.write(trace.generate_chrome_trace_format(show_memory=True)) 
    logging.info('trace written') 
    end = time.time() 
    logging.info('computed') 
    logging.info(end - start) 


if __name__ == "__main__": 
    logging.basicConfig(level=logging.INFO, format='%(asctime)s %(message)s') 
    test()

出典

2016-11-04 19:49:26

btw、タイムラインの誤った "gpu：0/stream：22"は実際にはgpu：1にあり、log_device_placementから見ると –

わかりました。しかし、これらのタイムラインの痕跡はまだ私には不思議に見えます。なぜ私はすべての操作をgpu0に割り当てると、結果は常にすべて計算されます（私は5000から20000までの異なるマトリックスサイズを試して、100までの異なるチェーンの長さを試しました）？これらの2つの鎖は、単一のgpu上であっても2つの並列ストリームで計算できると思われる。 – MikleB

これは間違いなく、テンソルフローはパラレルストリームのopsをスケジュールするのではなく、各opがGPUのすべてのストリームを使用できる –

Cを計算するときにGPU間でデータを転送する必要があるためですか？ Cをcpuに入れてみることはできますか？

with tf.device('/cpu:0'): 
    C = tf.matmul(B1, B2)

出典

2016-11-03 22:20:06 RaduK

と表示されています。また、最後のものの前に各gpuのために500のマトリックスのmltsがあるので、それは重要ではないと思う。 – MikleB

TensorFlow 2gpuより遅く単一のgpu

答えて

関連する問題