ソーシャルネットワークグラフのいくつかのメトリックをノードの順位付けのための単一の値に組み合わせたいとします。線形結合のためにべき乗則分布に従って複数の変数を標準化/スケール/正規化する正しい方法
in_degree + betweenness_centrality = informal_power_index
問題がin_degree
とbetweenness_centrality
は、異なるスケールで測定0-15対0から35000を言うと、(少なくとも間違いない正規分布)べき乗分布に従うことです
があります変数を再スケーリングして1つのw informal_power_index
を決定する際に他を支配していませんか?
三の明らかアプローチがある:変数(stddev
によってmean
と除算を減算)標準化
- 。これは、ディストリビューションをあまりにも大きく潰し、ロングテールの値とピーク付近の値との大きな違いを隠しているようです。
min(variable)
を減算し、max(variable)
で割ることによって、[0,1]の範囲に変数を再スケーリングする。これは配布の形を変えないので問題を解決することに近いと思われますが、おそらくそれが実際に問題に対処しないでしょうか?特に手段は異なっている。- 各値を
mean(variable)
で割って平均を均等化します。これはスケールの違いには対処しませんが、おそらく平均値は比較のためにより重要ですか?
他のアイデアはありますか?
標準的な方法と同じ問題はありませんが、それはワールドワイドに離れていてもパーセンタイル95と99がかなり近くに見えるように分布を縮小します(Bill Gateの銀行口座と...) –
このメソッドはすべてをパーセンテージ内に配置します。その数がどのように平均から逸脱しているかに基づいているわけではありません。しかし、私はそこであなたの方法論が明確ではないかもしれません。 2000年は恣意的であった。値が大きいほど、よりユニークな値を作成できます。 – Thad