私はデータ分析のためにRを使用しており、とても満足しています。しかし、データのクリーニングは少し楽になるかもしれません。私はこの仕事に適した別の言語を学ぶことを考えています。具体的には、未加工のデータを取り込み、不要な変数や観測結果を取り除き、Rで簡単に読み込むために使用するツールを探しています。コンテンツは、複数行のテキストではなく、数値データと文字列データです。データを掃除するためのPythonまたはawk/sed
私はawk/sedの組み合わせとPythonを考えています。 (私はPerlも別の選択肢であると認識していますが、別の完全な言語を学ぶなら、Pythonはより良い、より拡張性のある選択肢です。学ぶために。欠点は、この組み合わせがPythonほど拡張性がないことです。確かに、もし私がPythonを学んだとすれば、私はいくつかの "mission creep"を想像するかもしれないが、これはうまくいくだろうが、私の目標ではない。
私が持っていたもう一つの考慮点は、大きなデータセットへのアプリケーションです。私が理解しているように、awk/sedは行単位で動作しますが、Pythonは通常、すべてのデータをメモリに格納します。これはsed/awkのもう一つの利点かもしれません。
他にも欠けている問題がありますか?あなたが提供できるアドバイスは高く評価されます。 (私はRのユーザーが自分のクリーニング勧告を提供するためのRタグを含む。)
"クリーニング"とは、異常値をクリッピングすること、または一貫性を回復することなどです。 「データ」とは、数字や文字列、あるいは単にテキストのことです。現在の質問のこの目標はあまりにも一般的です。 – nye17
@ nye17、あいまいさには申し訳ありません。私は少し詳細を追加しました。 – Charlie
私は主にpythonを自分で使っていますが、Rのデータインターフェイスとして機能するテキストベースのデータセットを純粋に操作していた場合は、強力な正規表現と柔軟性のあるテキストを扱うことを強くお勧めします。 – nye17