dataframe

    1

    1答えて

    ランダムなデータを作成しています。これは、値が、単一のID内に重ならないことができるが、ID-Sを横切って重複できる変数idとvalを含むべきです。 IDの異なるIDはnです。私はまたグループをループとrbindを使用して、または回数を対応させてID-Sを-ing repを使用して関与するさまざまなソリューションを想像することができる n <- c(3,2,4) data.frame(id=re

    0

    1答えて

    xはインデックスがcodeであり、カラムがpeであるデータフレームです。 >>>x pe code 01 15 02 30 03 70 04 6 05 40 06 34 07 25 08 65 10 45 12 55 13 32 xのインデックスを取得します。 x.index Index(['01', '02', '03',

    0

    1答えて

    にpyspark 2.2.0データフレーム区分された書き込みを並列化 を作成し、各パーティション(グループ)をS3の独自の場所に書き込む。 drive_idで区切られたS3の位置にAthenaテーブルを定義する必要があります。これにより、drive_idによって照会された場合、非常に効率的にデータを読み取ることができます。 #df is spark dataframe g=df.gr

    -2

    3答えて

    私は、データフレームDFを持っている: a b c 1 5 5 2 3 5 3 3 5 3 3 3 3 3 2 4 2 2 1 2 2 私はそれを行うことができる方法、例えば私が行に持っているどのくらいの3代を計算したいですか? 例:行2 = 1、行3 = 2など アドバイスをお願いします。

    0

    1答えて

    私はDay of Weekの列を含むパンダのDataFrameを持っています。 プロットDataFrameは、 'Day of Week'をアルファベット順に表示します:'Friday', 'Monday', 'Saturday', 'Sunday' , 'Tuesday' , 'Thursday', 'Wednesday'。 df_weekdayを適切な平日の曜日に並べ替えて表示する方法'Mon

    0

    1答えて

    私は時系列分析に取り組んでいます。しかし、生産性は生産性指数(2010年= 1)で表されます。 これは、2010年の4四半期の平均値が1に等しいことを意味します。これは、初期値とみなされます。生産性の増減は、この値に対して表されます。 > dput(head(prod_ts,179)) structure(c(0.4652, 0.4721, 0.4808, 0.4827, 0.4814, 0.4

    -1

    1答えて

    こんにちはでCSVファイルに新しい行を追加する方法、それはように表示されるので、私は、CSVファイルに4つの変数(スコア、性別、クラスやイニシャル)を追加しようとしています: with open ('untitled.csv','w') as file_out: file_out.write(score) file_out.write(real_player_class)

    0

    1答えて

    私は2つのデータフレームを持っています。 df1(2584x15)およびdf2(5665x45)。 df2はmsecの時間列を持ちますが、df1は秒と秒です。私はdf1の時刻と一致するdf2のすべての行を抽出したいと思います。

    1

    1答えて

    パイプでggplotを使用した後にsummariseを実行することはできますか?変数はあまり重要ではなく、私は探索的な目的のために変化を見ているだけです。したがって、私は本当に変数を保存する必要はありません。 df %>% mutate(change = t2 - t1) %>% ggplot(aes(x = change)) + geom_histogram(