私は主題の初心者です。疑問が愚かなようであれば申し訳ありません。Tensorflowバックエンドを使用したCTC Beam Seach
ケラスのドキュメントとテンソルフローは、ネットワーク出力のctcビーム検索デコードを行う関数ctc_decodeを提供します。ドキュメンテーションは、デコーダの使用例を示していません。 https://github.com/igormq/ctc_tensorflow_example/blob/master/ctc_tensorflow_example.pyは使用例を示していますが、デコードされたテキストの文字列を取得することはできません。
出力テンソルを出力するためのstackoverflowには疑問がありますが、テンソルの出力が形状(?、?)のため出力が得られません。
>>> pred.shape
(1, 489, 29)
>>> dec, logp = K.ctc_decode(K.variable(pred, dtype='float32'),
K.variable([489],dtype='int32'),greedy=False)
>>> dec
[<tf.Tensor 'SparseToDense:0' shape=(?, ?) dtype=int64>]
>>> dec[0]
<tf.Tensor 'SparseToDense:0' shape=(?, ?) dtype=int64>
>>> s = tf.Session()
>>> s.run(tf.global_variables_initializer())
>>> print dec[0].eval(session=s)
[[0]]
predは、ニューラルネットワークの出力です。予測のためにデコードされた文字の数値を取得する必要があると思っていますが、私が得ているものは[[0]です。
ありがとうございます!