data.table

0熱

2答えて

Rはdata.tableで間違ったエンコーディングを示しますが、ベクトルで正しく表示されます

これはなぜ起こるのでしょうか？私。なぜUnicode文字がデータテーブルの行内に正しく表示されないのですが、ベクトル（データテーブルの列）に含まれていると正しく表示されますか？ >test.dt >fuel box seller.name >1: Gasoline Manual Michels S<U+00E0>rl > test.dt[,seller.name] >[1] "Mi

0熱

2答えて

変換は、名前が列名から形成された1つの拡張行にいくつかのタブのデータを変換しようと

を拡張コラム「による」...コンパクト/エレガントでの値に接合されましたそこで入力され library(data.table) # input bar <- data.table(c1 = c(1L, 2L), c2 = c(3L, 4L), c3 = c("aa", "bb")) # output baz <- data.table(c1_aa = 1L, c1_bb = 2L, c2_

1熱

1答えて

間隔を指定せずに変数グループを非等価結合する

2つの異なるプロバイダの2つのデータセットがあり、異なるIDで生徒の成績を記録します。少数の学生が両方のデータセットに現れます。 DT1 = data.table(id = 1:6, math = c(6.55, 7.39, 5.89, 9.70, 4.77, 5.30), engl = c(8.55, 8.83, 9.20, 9.10, 4.32, 8.17),

0熱

1答えて

data.tableのts関数内でstartとendを定義するgroupby

データセットの特定の列を、異なるデバイスのデータの日々のサンプルを使って2つのキー（時間と係数1）でグループ化された時系列列に変換しようとしています私が持っているデータは、この date hour factor1 volume wkday 1: 2015-10-01 AM 11011 530 Thursday 2: 2015-10-01 AM 11012 1535 Thursday

0熱

3答えて

Rでカスタム範囲でデータをグループ化する（例：0-4,1-5,2-6,3-7など）

私はhttps://www.kaggle.com/c/titanicからタイタニックデータセットを使用しています。 "0-4"、 "1-5"、 "2-6"、 "3-7"などのように異なる年齢グループを作り、生存率が最高。私の年齢グループは整数間隔[0,80]内にあります。元のデータセットの「年齢」列には、NAsも含まれています。「生存」の列には、生存しているかどうかの情報が含まれます（0 =いい

2熱

2答えて

ファクタ列を使ってR data.tableを解凍する

私は以下のR data.tableを持っています（ただし、これもdata.frameでスケーリングする必要があります）。目標は、このデータテーブルを整形して、散布図としてggplot2にプロットすることです。私はそのためのポイントを着色する1「要因」の列を持っているこのdata.tableを再構築する必要があります。 > library(data.table) > dt ID

0熱

2答えて

data.table一致が見つからない場合、内部結合はエラーを生成します

内部結合を使用して2つのdata.tableを結合しようとしています。一致するものが見つからない可能性があります。次に、右側のcol名を持つ空のdata.tableが必要です。 dt1 <- data.table(A = c(1,2), B = c(1,2)) dt2 <- data.table(A = c(3,4), D = c(3,4)) setkey(dt1, A) setkey(dt

0熱

3答えて

R data.tableの高速化クエリ - この2つの引数の関数をグループ単位でより迅速に適用できますか？

data.tableを使用して、2つのパラメータの関数をデータセット全体でグループ単位で素早く適用できますか？ 100万行のデータセットでは、以下に定義されている単純な関数を呼び出すのが11秒以上かかることがわかりました。これは、この複雑さの何かに対して予想されるよりもはるかに長くなります。以下の自己完結型のコードでは、私が何をしようとしています何の要点を概説： # generate data

1熱

1答えて

DTデータテーブルの表示エラー

私はDTで表示しているdata.tableがあります。 2つの列で、パーセンテージを表示し、背景バーを表示したい。ただし、選択するテーブルによって列の数が変わる可能性があります。 1つまたは2つの割合の列があります。ここでは、grepをうまく使用していないダミーデータとこれまでのアプローチがあります。 a <- c(45, 143, 123, 120, 118, 109, 94, 81) b

0熱

2答えて

指定した範囲のローリング・サム

dfの場合、最後の10秒間の値のローリング・サムを秒単位で指定したいと思います。データフレームが非常に大きいので、dply :: completeを使用することはオプションではありません（何百万というデータポイント、ミリ秒レベル）。私はdplyrソリューションを好むが、datatable left_joinで可能かもしれないと思う、ちょうどそれが働くことを傾ける。 df = data.frame(