doubleから8bitへの浮動小数点量子化

double precision floating pointを8bit floating pointに格納できる値に丸めるにはどうすればよいですか？私は数学的にそれをやろうとしていますが、どうするかわかりません。doubleから8bitへの浮動小数点量子化

Iはxdouble番号を持っていると私はnとn*2^bとb整数と[-128,127]にnで表現できる最も近いyを見つけるべきです。しかし、どうすれば最高のnとbを見つけることができますか？

出典

2016-04-01 Andrea993

私は、このアルゴリズムを用いて解決しました：

function y = DoubleTo8bit(x) 
s=sign(x); 
x=abs(x); 

if x==0 
    y=0; 
    return; 
end 
b=floor(log2(x)+1)-8+(s>0); 
m=s*round(x/2^b); 

y=m*2^b; 
end

出典

2016-04-01 13:34:54 Andrea993

doubleから8bitへの浮動小数点量子化

答えて

関連する問題