あるまあ、これは私が書く助けとソートのあなたが求めているものを行いdataMaid
パッケージのための恥知らずなプラグインです。 dataMaid
パッケージのアイデアは、データフレーム内の変数について一連のテストを実行し、潜在的な問題を特定するために人間の調査官(状況に関する知識を持つ方がよい)が閲覧できるというレポートを作成することです。
A始めるための超簡単な方法は、パッケージをロードし、データフレームに clean
機能を使用することです(あなたが同じデータ フレームを数回をきれいにしようとした場合、replace=TRUE
引数を追加する必要があるかもしれません既存のレポートを上書きする)。
devtools::install_github("ekstroem/dataMaid")
library(dataMaid)
data(trees)
clean(trees)
これはtrees
データフレーム内の各 変数の要約及びエラーチェックを含むレポートを作成します。すべての変数の概要が提供され、各変数からの情報はここでは、この
我々は状況を取得するように見えるかもしれないがtrees
データのためには、この
のように見えます変数タイプ、要約統計量、プロット、およびこの場合は - 異常値に問題がある可能性のある指標。
dataMaid
パッケージはまた、個々の変数のためか、テストの標準バッテリーは 変数の型に応じて実行されるデフォルトのデータセット
data(toyData)
check(toyData$var2) # Individual check of var2
check(toyData) # Check all variables at once
のすべての変数のためのチェックを実行することにより、対話的に使用することができ
が、あなた自身の小切手を提供することによってパッケージを拡張することが可能です。
あなたのケースでは、2つのレポートを取得するために両方のデータセットでパッケージを実行し、それらの大きな相違点は何が問題であるかについてのフラグを立てるでしょう。
ありがとうございます。私はこれを試しましたが、それは私の要求を満たすものではありません。私はビジネスユーザー向けのデータセットの比較のためのユーザーインターフェースを作成しているので、「変数Xは問題があります」という簡単な出力を表示する必要があります。修正してください。処理はすべてバックエンドで行われ、ユーザーに表示されます。 –
このPDF出力は非常に便利ですが、私たちのようなデータ科学者/アナリストだけがドキュメントを読んで間違ったことを推測することができます。 –
あなたの助けを感謝します。再度、感謝します。以前このライブラリについて知りませんでした。あなたに他の提案があれば教えてください。 –