文字列を数値と比較して異常値を見つける方法

私はRを学習しようとしており、探しているものを正確に見つけるのが難しいと感じています。たくさんの図書館があります。文字列を数値と比較して異常値を見つける方法

私は150Kの名字とその給与のサンプルデータセットを持っています。

お楽しみのために、姓名が著しく高いか低いかを確認したいと思います。

,"FirstName","LastName","BasePay" 
1,"NATHANIEL","FORD","167411.18" 
2,"GARY","JIMENEZ","155966.02" 
3,"ALBERT","PARDINI","212739.13"

私が使用して試してみました

：library("arulesViz")と

rules <- apriori(data)しかし、正確な給与番号に相関性を見つけようとしているようだが、給料が比較的高いか低いではないということ。

私にこの問題の助けを借りていただければ幸いです。

よろしく、スティーブン

出典

2016-04-23 Steven Delphey

この質問は、統計に関するものであり、特定のプログラミングに関する質問ではないので、話題にはならないようです。おそらく、[Cross Validated]（http://stats.stackexchange.com）でこれを尋ねる方が良いでしょう。 – Jaap

私はそれが完全に正当な質問だと思います。私はdplyrパッケージを使用します。次に、 'group_by'と 'summarize'関数を使用することができます。あなたのケースではgroup_by（FirstName）を選択し、任意の種類の統計を選択します。つまり、バイアスの指標として給与の平均値または中央値を選択します。

出典

2016-04-23 21:37:44 biomiha

文字列を数値と比較して異常値を見つける方法

答えて

関連する問題