data-munging

0熱

1答えて

Elegently ...私はPDFのテキストレイヤーで働いているデータフレーム

内の値を再配置し、作るためにいくつかのマイナーな修正を持って私が生成したデータフレームきちんとオフになっている1つのまたは2つのデータ値を持っています一列で私は間違って配置された値（他の変数の組み合わせによって定義される）の '座標'を持ち、実際にどこに行くべきかの位置を持っています。この中に、 data.frame(A = 1:3, B = 1:3, C = c("

2熱

2答えて

1つの変数データフレームを分割する

私は1つの変数として表示されるCSVファイルを持っています。私はそれを6に分割したいと思います。私は助けが必要です。 str(nyt_data) 'data.frame': 3104 obs. of 1 variable: $ Article_ID.Date.Title.Subject.Topic.Code: Factor w/ 3104 levels "16833;7-Dec-03;Ruse

0熱

1答えて

正規表現がPandas Dataframeと連携していません

正規表現を使用してクリーンアップする必要がある電子メールで構成されたPandas Dataframeがあります。しかし、私の列をきれいにしようとする試みは、実際にテキストに適用されていません。例のデータは、以下である： |subeject | description | --------------------------------------- |change email | '

0熱

3答えて

データをPythonで変換する：文字列を行に変換する

私はPythonにはかなり新しく、データを整理する必要があります。私は、ライブラリ、モジュール、実装のためのより良いコード、またはちょうど方向性について、これに関するベストプラクティスに関する助言をしたい。 A:100 B:200 C:300 A:150 B:350 C:370 すなわち：は、だから私は、次の形式で編成されたデータのテキストファイルを持っています各行は関連データ、A/B/

1熱

1答えて

dplyr折りたたみ時間期間

私は以下のdata.frameを持っており、それぞれのcompany_idに対して30日で区切られた期間に「期間」を「崩壊」するような期間を「チャンク」したいと考えています。 company_id startDate endDate 1 209952 2012-09-17 2012-10-17 2 209952 2012-10-17 2012-11-17 3 209952 2012-1

-1熱

1答えて

CSVの連続した行で正味の値を得るための最良の方法

以下の操作を実行する最善の方法をアドバイスしています。好ましくは、Python、javascript、またはExcelで。データはCSV形式です（ただし、以下のカンマは削除しています）。私は騒ぎです。私はそれをすることができるはずですが、私はそれがこのような基本的な操作であるので、このようなことをするエレガントな方法があると思います。 Direction Name Trial Amount

1熱

1答えて

パンダタイムスパンとグループ：直近の期間値

に対応する列にグループIDとしてインデックス付き/ピボットをGROUPBYの必要性私はこのようになりますテーブルがあります。 Index Group_Id Period Start Period End Value Value_Count 42 1016833 2012-01-01 2013-01-01 127491.00 17.0 43 1016833 2013-01-0

2熱

1答えて

MultiIndexを使用した時間のサブセット化

私はpandasのMultiIndexを初めて使っていますが、私はそれが参考になる状況があります。 ID ON_SCENE LAST 2016-05-05 03:58:54 last1 1000 2016-05-05 17:23:39 last1 1001 2016-05-05 18:20:50 last1 1002

0熱

1答えて

1対多の行レベルをマージする

私は多くの人が遭遇したと感じるデータ問題にぶつかってきました。私は現在、取引情報を含むデータセットを持っています。 Transaction_Numberに基づいて、トランザクションに関わる各人がどれくらい時間を費やしているかを知ります。最終出力はこの Transaction_Number Created On Created_By Time_Diff 27327920232