列全体の平均値を中心に値を中心にしようとしています。私は大(大)データフレーム全体でこれを行う必要があるので、最初にcolMeansを試しました。このことから異なる関数を使用したときに同じ計算に異なる回答が得られる理由はわからない
colMeans(data, na.rm = TRUE)
、私は、データセットの最初の列のための5.567のような答えを得ます。しかし、私はこれを再度チェックしたかったのです。平均関数 mean(data$first_column, na.rm = TRUE)
を使うと、代わりに8.466が得られます。私がExcelシートで平均を計算すると、6.5の周りに何かがあります。
生成されたデータセットでこの問題を再現することができなかったので、ここでは link to a GoogleDoc with the first two columns of my data setです。
最後の目標は、データセットのほぼすべての列の平均値を中心にして、lapply()でこれを行うと仮定しました。しかし、私がそれをする前に、なぜ私が非常に多くの異なる平均値を得ているのか理解したい。私はそれがNAsか何かと関係していると仮定しますが、私はそれをかなり把握していません。
ご協力いただきありがとうございます。
エラーを再現することができません。私はcsvとしてGoogleドキュメントをダウンロードし、colmeansと平均を使用して6.502439を得ました。 –
データフレームに 'complete.cases()'を使って、すべてのNAsが削除されるようにしてください。 'data < - data [complete.cases(data)、]' – sweetmusicality
私は@IanWesleyに同意します。問題は再現性がありません。 6.502439は 'Irritability'の平均値です –