data-cleaning

    0

    2答えて

    Rプログラミングにとって非常に新しく、データのクリーンアップに取り組んでいます。私は、複数の列を持つデータを持つcsvファイルをアップロードしました。 データの特性は基本的にはyes/noですが、 '1'、 '2'、 '3'、 '4'とコード化されています。実際に '2'、 '3'、 '4'の値は意味がありません。値が0かどうかを示すだけです(値が0の場合は0、値の場合はno) カラム summa

    0

    1答えて

    私は、それぞれが別々の属性を取得するには、以下の文字列を分割したい: String_one: 'archived': True, 'id': '30znq1', '_has_fetched': True String_two: \\'hidden\\': False, \\'user_reports\\': [], \\'num_reports\\': None 私は属性のすべてはどちらか「

    0

    1答えて

    数字の値を検証することも、すべての項目を読み取ることもできないことを考慮して、そのテキストデータを検証して検証する方法については疑問に思っています。 特定のケースでは、.mboxファイルから取得した電子メールのテキストデータを処理しています。ですから、すべての種類の書式があります。つまり、署名などです。分析したいテキストは基本的に本文のサブセクションです。私が好きなものを抽出する方法を見つけたら、

    1

    1答えて

    私はちょうどPythonを学び始めました。 ここで重要な目的は、データの探索+データのクリーニングです。 私が下に書いた関数は、すべての列から欠損値の割合を示すデータフレームを出力します。 def missing_values_table(df): missing_vals = df.isnull().sum() # Boolean check of all value to

    0

    2答えて

    Rを使用してデータセットをクリーニングするときに問題が発生しました。 元のデータセットは次のようになります: ID St Q1 Q2 Q3 Q4 Q5 Q6 Q7 Q8 Q9 Q10 gen ho gu qu 1 a NA NA NA NA NA NA 1 2 3 4 1 2 1 2 2 b NA NA NA NA NA NA NA NA 1 2 3 4 1 2 3 c 1 2 3 NA N

    1

    3答えて

    私はRでクリーニングしようとしているいくつかの反復測定データを持っています。この時点で、それは長い形式であり、私はワイドフォーマットに移行する前にいくつかの項目を修正しようとしています。たとえば、人々が私の調査をあまりにも多く回して行を落とす場合です。 がエントリー を変更する誰かが「プレテストリンク」からアンケートを取った場合、それが実際に事後テストすることになった、I:私は私が解決しようとして

    1

    1答えて

    400,000 x 600サイズのデータ​​フレーム(800MB)のPandasデータフレームで、scikit-learn前処理とランダムフォレストアンサンブル手法を使用しています。このデータフレームをアルゴリズムに渡すと、データフレーム内の余分なスペースが原因でこの値のエラーが発生します。 データフレームからすべてのスペースを削除するにはどうすればいいですか?数値だけで、文字列は絶対に含まないよ

    2

    3答えて

    私は文章でいっぱいのテキストファイルに対してデータクリーニング作業を行っています。これらの文章を間違えた後、私はその単語の出現頻度を私の出てきたリストに入れたいと思っています。しかし、私は、茎のリストを印刷するときのような問題に遭遇stem_listています、私はそうのように、すべての文のためのリストを取得しています: [u'anyon', u'think', u'forgotten', u'da

    0

    1答えて

    私はPythonを使用してデータクリーニング作業を行い、いくつかの文を含むテキストファイルから読み込みます。次のようにテキストファイルをトークン化した後、私は各文のためのトークンのリストを得続ける: [u'does', u'anyone', u'think', u'that', u'we', u'have', u'forgotten', u'the', u'days', u'of', u'favo

    -2

    1答えて

    アンバランスパネルデータ(長形式)でNAを以前の値に置き換えたいと思います。置き換え、データは後 Firm Date Var_1 AAA 19990430 NA AAA 19990531 10 AAA 19990630 NA AAA 19990731 NA AAA 19990831 12 AAA 19990930 NA BBB 20040331 NA BBB 200