2012-01-23 10 views
1

私はアルゴリズムを評価しており、人工データを使用したいと考えています。分類データ用人工データセットジェネレータ

アルゴリズムは、this StackOverflow answerに示すように、1次元の人工データセットに対してうまく機能します。

複数の次元と特定の特性(ノイズ、相関など)を持つデータセットのアルゴリズムをテストしたいと思います。誰かがすでにRに「人工データセットジェネレータ」を実装していましたか?

フィードバックは非常に高く評価されます。ありがとう!

+0

あなたが好きな性質を持つ人工データセットを作成することができます。あなたが望むプロパティについてより具体的なものがあれば、より良い回答が得られます。 –

+1

あなたは 'MASS :: mvnorm'のようなものを意味していますか? –

+0

@Romanありがとうございました。 – cs0815

答えて

1

mlbenchpackageは、ベンチマークの目的でさまざまな次元と構造のデータを生成するための関数の集まりです。それには、回帰と分類の両方のデータセットが含まれます。

もちろん、これらのデータセットはすべて人工的なものなので、アルゴリズムが意図している種類の構造を反映していない可能性があるため、実際のパフォーマンスは実際には反映されません。しかし、それは少なくとも始まる場所です。

+0

ありがとう。これはデータセットの集まり(私は以前にUCIを使用していました)のようです。私はジェネレータにもっと興味があるので、どの条件(データセットプロパティ)でアルゴリズムのパフォーマンスが崩れ始めるかを確認できます。人工データセットでは、「真実」(公式)が不明な既存のデータセットを使用して、不可能な較正(IMHO)を測定することもできます。ありがとう。 – cs0815

+0

@csetzkornもっと詳しく見てください。 mlbenchには、sdのようなものを制御するパラメータ、直方体の中心など、_generator_関数が含まれています。今、私が言ったように、誰かがあなたが望むやり方で人工データセットを生成する関数を魔法のように作成することは考えにくいでしょう。それがあなたの望むものなら、自分でコード化する必要があります。 – joran

+0

申し訳ありません私は発電機ビットを見ませんでした。ありがとう – cs0815

2

wakefieldパッケージを使用すると、ランダムなデータセットを生成できます。

これは、データフレーム、時系列、相関関係を調整し、さらに生成されたデータを視覚化する、例えばを簡単に作成することができます。:

if (!require("pacman")) install.packages("pacman") 
pacman::p_load_gh("trinker/wakefield") 
pacman::p_load(dplyr, tidyr, ggplot2) 

set.seed(10) 

r_data_frame(n=100, 
    id, 
    dob, 
    animal, 
    grade, grade, 
    death, 
    dummy, 
    grade_letter, 
    gender, 
    paragraph, 
    sentence 
) %>% 
    r_na() %>% 
    plot(palette = "Set1") 

enter image description here

+1

その写真は、それを生成した実際のコードなしでは役に立ちません。関連情報を追加することをお勧めします。そうしないと、非常に低品質の回答キュー –

+0

に入ります。それは、著者のマニュアルからコードを複製することを意味します。 – epo3