2009-05-31 6 views
2

いくつかのソースではなく、PRNGからシーケンスPF番号N, N, N...を考えるが、いくつかの種類のセンサーやログデータを言って、この数字のどの部分がより多くのエントロピーを持っていますか?

のようにそれを処理することを想定することは安全です

Nn/ B = Q N   Rem Mn

シーケンスM未満のエントロピーをhaveingシーケンスQになりますか?

注:は、QMの両方が同じサイズの範囲であるとします。


これはthe observation that most real world data sets, regardless or there source, have a logarithmic distributionに関連しています。 1から始まる数字は9から始まる数字よりはるかに一般的です。しかし、これは低次の部分についてはほとんど言及していません。

ll -R 2>/dev/null | grep -v -e "^\./" | sed "s/[-rdwxlp]*\W*[0-9]*\W*[a-z]*\W*[a-z]*\W*\([0-9]\).*/\1/" | sort | uniq -c 

をし、ファイルサイズの最初の数字のヒストグラムを取得:これをテスト(と自分のコンピュータを停滞によって、あなたのsys管理者を怒ら)bashでこれを実行するための楽しい方法について

答えて

1

これはシーケンスによって異なります。例えば、[1 * 7 = 7,3 * 7 = 21,6 * 7 = 42 ...(2 * N - 1)* 7]、B = 7とする。Qnは[1,3,6、 ... 2 * N - 1]となり、Mnは常に0となる。通常、Qのエントロピーはビットをシフトするようなものではありませんが、必ずしもそうではありません。

もちろん、Qnの範囲はMnの範囲と同じであり、両方の場合も(ほぼ)均等に分散されるため、(P)RNGからのデータの場合は特に機能しません。

+0

いくつかのPRNGのIIRCではQが少なくなります。 – BCS

+0

ちょうど悪いPRNGsの場合、エントロピーの差は、MSVCのようないくつかの本当に悪いものを取る場合を除いて、最小になります。 – schnaader

+0

私は間違ってはいけませんが、普通のセンサーデータ(温度のような)はもちろん下位ビットでしか変化しないので、Qnはより低いエントロピーを持つでしょう。しかし、私の指摘は、これはすべての種類のデータに当てはまりません。 – schnaader

関連する問題