私はwhat it takes to support fast vectorized linear algebra computations for matrices and vectors of arbitrary sizeを理解しようとしています。私がx86プロセッサアーキテクチャについて理解しているところからは、それらにはspecial registers of limited sizeが含まれています。これらのレジスタは、浮動小数点数をロードし、オペレーションをレジスタ間でブロードキャストすることを可能にする。制限されたサイズを効率よくどのように乗り越えますか?OpenBLASは任意のサイズのベクトルと行列をどのようにサポートしていますか?
私はOpenBLASのソースコードを見ていましたが、dev docsを見ても、gemv
のような簡単な操作の一般的な流れは分かりませんでした。