dataframe

1熱

1答えて

ランダムなデータを作成しています。これは、値が、単一のID内に重ならないことができるが、ID-Sを横切って重複できる変数idとvalを含むべきです。 IDの異なるIDはnです。私はまたグループをループとrbindを使用して、または回数を対応させてID-Sを-ing repを使用して関与するさまざまなソリューションを想像することができる n <- c(3,2,4) data.frame(id=re

0熱

1答えて

サブデータフレームを取得する最も簡単な方法は何ですか？

xはインデックスがcodeであり、カラムがpeであるデータフレームです。 >>>x pe code 01 15 02 30 03 70 04 6 05 40 06 34 07 25 08 65 10 45 12 55 13 32 xのインデックスを取得します。 x.index Index(['01', '02', '03',

0熱

1答えて

はpysparkと協力し、私は私のコードで作成したボトルネックに実行するために開始しS3

にpyspark 2.2.0データフレーム区分された書き込みを並列化を作成し、各パーティション（グループ）をS3の独自の場所に書き込む。 drive_idで区切られたS3の位置にAthenaテーブルを定義する必要があります。これにより、drive_idによって照会された場合、非常に効率的にデータを読み取ることができます。 #df is spark dataframe g=df.gr

-2熱

3答えて

Rのデータフレーム内の特定の値の数を計算するには？

私は、データフレームDFを持っている： a b c 1 5 5 2 3 5 3 3 5 3 3 3 3 3 2 4 2 2 1 2 2 私はそれを行うことができる方法、例えば私が行に持っているどのくらいの3代を計算したいですか？例：行2 = 1、行3 = 2などアドバイスをお願いします。

0熱

1答えて

パンダのデータフレームグループと平日の並べ替え

私はDay of Weekの列を含むパンダのDataFrameを持っています。プロットDataFrameは、 'Day of Week'をアルファベット順に表示します：'Friday', 'Monday', 'Saturday', 'Sunday' , 'Tuesday' , 'Thursday', 'Wednesday'。 df_weekdayを適切な平日の曜日に並べ替えて表示する方法'Mon

0熱

1答えて

生産性指数を変更するために列の値を置き換える初期値 - R

私は時系列分析に取り組んでいます。しかし、生産性は生産性指数（2010年= 1）で表されます。これは、2010年の4四半期の平均値が1に等しいことを意味します。これは、初期値とみなされます。生産性の増減は、この値に対して表されます。 > dput(head(prod_ts,179)) structure(c(0.4652, 0.4721, 0.4808, 0.4827, 0.4814, 0.4

-1熱

1答えて

パンダ

こんにちはでCSVファイルに新しい行を追加する方法、それはように表示されるので、私は、CSVファイルに4つの変数（スコア、性別、クラスやイニシャル）を追加しようとしています： with open ('untitled.csv','w') as file_out: file_out.write(score) file_out.write(real_player_class)

0熱

1答えて

パンダに浮動小数点問題があります

私は2つのデータフレームを持っています。 df1（2584x15）およびdf2（5665x45）。 df2はmsecの時間列を持ちますが、df1は秒と秒です。私はdf1の時刻と一致するdf2のすべての行を抽出したいと思います。

1熱

1答えて

ggplotの後のパイプでのdplyr関数の使用

パイプでggplotを使用した後にsummariseを実行することはできますか？変数はあまり重要ではなく、私は探索的な目的のために変化を見ているだけです。したがって、私は本当に変数を保存する必要はありません。 df %>% mutate(change = t2 - t1) %>% ggplot(aes(x = change)) + geom_histogram(