0
double precision floating point
を8bit floating point
に格納できる値に丸めるにはどうすればよいですか? 私は数学的にそれをやろうとしていますが、どうするかわかりません。doubleから8bitへの浮動小数点量子化
Iはx
double
番号を持っていると私はn
とn*2^b
とb
整数と[-128,127]
にn
で表現できる最も近いy
を見つけるべきです。しかし、どうすれば最高のn
とb
を見つけることができますか?