2016-04-23 5 views
0

私はRを学習しようとしており、探しているものを正確に見つけるのが難しいと感じています。たくさんの図書館があります。文字列を数値と比較して異常値を見つける方法

私は150Kの名字とその給与のサンプルデータセットを持っています。

お楽しみのために、姓名が著しく高いか低いかを確認したいと思います。

,"FirstName","LastName","BasePay" 
1,"NATHANIEL","FORD","167411.18" 
2,"GARY","JIMENEZ","155966.02" 
3,"ALBERT","PARDINI","212739.13" 
私が使用して試してみました

library("arulesViz")

rules <- apriori(data)しかし、正確な給与番号に相関性を見つけようとしているようだが、給料が比較的高いか低いではないということ。

私にこの問題の助けを借りていただければ幸いです。

よろしく、スティーブン

+0

この質問は、統計に関するものであり、特定のプログラミングに関する質問ではないので、話題にはならないようです。おそらく、[Cross Validated](http://stats.stackexchange.com)でこれを尋ねる方が良いでしょう。 – Jaap

答えて

0

私はそれが完全に正当な質問だと思います。 私はdplyrパッケージを使用します。次に、 'group_by'と 'summarize'関数を使用することができます。あなたのケースではgroup_by(FirstName)を選択し、任意の種類の統計を選択します。つまり、バイアスの指標として給与の平均値または中央値を選択します。

関連する問題