2017-08-22 11 views
-3

問題が発生しました。 2つのデータセットAとBがあります。2つの工場のデータセットであるとします。工場Aは実績があり、工場Bは実績がありません。私は、工場Aのデータセット(製造ユニットから出力されたデータ)と工場Bとを有し、両方とも同じ変数を有する。ファクトリーBの問題のある変数を特定するには、どのようにすればよいのですか?したがって、私は直ちに注意が必要な問題のある変数を特定する必要があります。良いと悪いデータセットの比較Rを使用して

あなたのお返事をお待ちしております。

p.s:使用されているコーディング言語は、R

答えて

1

あるまあ、これは私が書く助けとソートのあなたが求めているものを行いdataMaidパッケージのための恥知らずなプラグインです。 dataMaidパッケージのアイデアは、データフレーム内の変数について一連のテストを実行し、潜在的な問題を特定するために人間の調査官(状況に関する知識を持つ方がよい)が閲覧できるというレポートを作成することです。

A始めるための超簡単な方法は、パッケージをロードし、データフレームに clean機能を使用することです(あなたが同じデータ フレームを数回をきれいにしようとした場合、replace=TRUE 引数を追加する必要があるかもしれません既存のレポートを上書きする)。

devtools::install_github("ekstroem/dataMaid") 
library(dataMaid) 
data(trees) 
clean(trees) 

これはtreesデータフレーム内の各 変数の要約及びエラーチェックを含むレポートを作成します。すべての変数の概要が提供され、各変数からの情報はここでは、この

enter image description here

我々は状況を取得するように見えるかもしれないがtreesデータのためには、この

enter image description here

のように見えます変数タイプ、要約統計量、プロット、およびこの場合は - 異常値に問題がある可能性のある指標。

dataMaidパッケージはまた、個々の変数のためか、テストの標準バッテリーは 変数の型に応じて実行されるデフォルトのデータセット

data(toyData) 
check(toyData$var2) # Individual check of var2 
check(toyData)  # Check all variables at once 

のすべての変数のためのチェックを実行することにより、対話的に使用することができ

が、あなた自身の小切手を提供することによってパッケージを拡張することが可能です。

あなたのケースでは、2つのレポートを取得するために両方のデータセットでパッケージを実行し、それらの大きな相違点は何が問題であるかについてのフラグを立てるでしょう。

+0

ありがとうございます。私はこれを試しましたが、それは私の要求を満たすものではありません。私はビジネスユーザー向けのデータセットの比較のためのユーザーインターフェースを作成しているので、「変数Xは問題があります」という簡単な出力を表示する必要があります。修正してください。処理はすべてバックエンドで行われ、ユーザーに表示されます。 –

+0

このPDF出力は非常に便利ですが、私たちのようなデータ科学者/アナリストだけがドキュメントを読んで間違ったことを推測することができます。 –

+0

あなたの助けを感謝します。再度、感謝します。以前このライブラリについて知りませんでした。あなたに他の提案があれば教えてください。 –

関連する問題