data.table

    0

    2答えて

    これはなぜ起こるのでしょうか?私。なぜUnicode文字がデータテーブルの行内に正しく表示されないのですが、ベクトル(データテーブルの列)に含まれていると正しく表示されますか? >test.dt >fuel box seller.name >1: Gasoline Manual Michels S<U+00E0>rl > test.dt[,seller.name] >[1] "Mi

    0

    2答えて

    を拡張コラム「による」...コンパクト/エレガントでの値に接合されましたそこで入力され library(data.table) # input bar <- data.table(c1 = c(1L, 2L), c2 = c(3L, 4L), c3 = c("aa", "bb")) # output baz <- data.table(c1_aa = 1L, c1_bb = 2L, c2_

    1

    1答えて

    2つの異なるプロバイダの2つのデータセットがあり、異なるIDで生徒の成績を記録します。少数の学生が両方のデータセットに現れます。 DT1 = data.table(id = 1:6, math = c(6.55, 7.39, 5.89, 9.70, 4.77, 5.30), engl = c(8.55, 8.83, 9.20, 9.10, 4.32, 8.17),

    0

    1答えて

    データセットの特定の列を、異なるデバイスのデータの日々のサンプルを使って2つのキー(時間と係数1)でグループ化された時系列列に変換しようとしています 私が持っているデータは、この date hour factor1 volume wkday 1: 2015-10-01 AM 11011 530 Thursday 2: 2015-10-01 AM 11012 1535 Thursday

    0

    3答えて

    私はhttps://www.kaggle.com/c/titanicからタイタニックデータセットを使用しています。 "0-4"、 "1-5"、 "2-6"、 "3-7"などのように異なる年齢グループを作り、生存率が最高。私の年齢グループは整数間隔[0,80]内にあります。元のデータセットの「年齢」列には、NAsも含まれています。 「生存」の列には、生存しているかどうかの情報が含まれます(0 =いい

    2

    2答えて

    私は以下のR data.tableを持っています(ただし、これもdata.frameでスケーリングする必要があります)。目標は、このデータテーブルを整形して、散布図としてggplot2にプロットすることです。私はそのためのポイントを着色する1「要因」の列を持っているこのdata.tableを再構築する必要があります。 > library(data.table) > dt ID

    0

    2答えて

    内部結合を使用して2つのdata.tableを結合しようとしています。一致するものが見つからない可能性があります。次に、右側のcol名を持つ空のdata.tableが必要です。 dt1 <- data.table(A = c(1,2), B = c(1,2)) dt2 <- data.table(A = c(3,4), D = c(3,4)) setkey(dt1, A) setkey(dt

    0

    3答えて

    data.tableを使用して、2つのパラメータの関数をデータセット全体でグループ単位で素早く適用できますか? 100万行のデータセットでは、以下に定義されている単純な関数を呼び出すのが11秒以上かかることがわかりました。これは、この複雑さの何かに対して予想されるよりもはるかに長くなります。 以下の自己完結型のコードでは、私が何をしようとしています何の要点を概説: # generate data

    1

    1答えて

    私はDTで表示しているdata.tableがあります。 2つの列で、パーセンテージを表示し、背景バーを表示したい。ただし、選択するテーブルによって列の数が変わる可能性があります。 1つまたは2つの割合の列があります。 ここでは、grepをうまく使用していないダミーデータとこれまでのアプローチがあります。 a <- c(45, 143, 123, 120, 118, 109, 94, 81) b

    0

    2答えて

    dfの場合、最後の10秒間の値のローリング・サムを秒単位で指定したいと思います。データフレームが非常に大きいので、dply :: completeを使用することはオプションではありません(何百万というデータポイント、ミリ秒レベル)。私はdplyrソリューションを好むが、datatable left_joinで可能かもしれないと思う、ちょうどそれが働くことを傾ける。 df = data.frame(