2016-05-23 12 views
1

私は測定するプロパティを持つオブジェクトのコレクションを持っています。各オブジェクトについて、そのオブジェクトを記述する実数のベクトルを取得します。ベクトルはいつも不完全です:完全なベクトルとなるものの最初や最後から欠けている数字があります。時には真ん中に情報がありません。したがって、各オブジェクトは、異なる長さのベクトルをもたらす。私はまた、それぞれの物体の質量を測定します。そして、私は今測定した物体のベクトルを質量に関連づけたいと思います。入力の可変サイズの実数ベクトルによる機械学習?

実数のこのベクトルからフィーチャを抽出することは、私の分野(天体物理学)で一般的です。値の平均またはいくつかの線形結合をとる。それらの抽出された特徴を用いて、例えばニューラルネットワークを用いて質量(または何でも)を推論することができる。しかし、最近、ベクトルの要素の非常に複雑な組み合わせにより、より良いモデルの質量が得られることが示された。

ただし、シミュレートされたデータで作業している場合でも、このモデルには残差があります。おそらく、より良いモデルを得るためには、これらの可変長ベクトルを操作するための良い方法があります。

すべての異なる長さの実数値入力ベクトルで機械学習を実行できるかどうかは疑問です。私はテキストマイニングのために、bag-of-wordアプローチのようなものがあることを知っていますが、そのようなメソッドが実数値ベクトルでどのように機能するかは不明です。私はリカレントニューラルネットワークが可変長の文章で動作することを知っていますが、実数ベクトルのために働くかどうかはわかりません。私はまた欠けているデータの帰属を考慮しました。しかし、時には物理的な理由でそれが欠けている、すなわちそのような場所での価値が存在することができないので、それを帰すことは状況の物理的性質に違反する。

このエリアの研究はありますか?

+2

特徴ベクトルの位置Xにあるのはどの特徴であるかが分かりません。もしあなたが知っていれば、あなたは古典的な意味で長さの異なる特徴ベクトルを扱っていませんが、あなたの特徴ベクトルには多くの未知( "NA")情報があるでしょう。あなたが知っていない場合:あなたの機能が注文されているか(時系列の測定値に似ていますか?それを「シャッフル」しますか? – geekoverdose

+0

@geekoverdose興味深い質問!私は物理的なものを測定しています。時には情報がまれにしかない( "NA")場合もありますが、他の時は情報が非物理的です---立っている人のように存在することはできません---そうこれが「NA」のものかどうかはわかりません。情報は順序付けられたものと見なすことができる。すなわち、順序でそれらをラベル付けすることは可能であるが、必ずしもそうする必要はなく、ラベル付けを行うことが時々困難である。私は、この問題に対する連続的または非順次的な解決策について聞いてうれしいです。 – rhombidodecahedron

+0

次に、「不足しているプロパティ」を情報そのもの(バイナリやダミー変数など)と考えています。この情報は、特定のモデルタイプで直接予測タスクで使用できますが、たとえば、それが使用される木のようなモデルは、より同質のグループを自動的に形成する。他のモデルでは、目標変数の予測が可能です。 – geekoverdose

答えて

1

リカレントニューラルネットワーク(RNN)は、長さnの可変サイズの入力ベクトルを取り、長さmの可変サイズの出力ベクトルを生成することができます。

RNNを動作させる方法はたくさんあります。最も一般的なセルタイプは、LSTM(Long Short-Term Memory)およびGRU(Gated Recurrent Unit)と呼ばれます。

あなたは参照することもできます。

をしかし、トレーニングのRNNは、トレーニングデータの多くを取ります。そこから固定サイズの特徴ベクトルを計算する方が良いかもしれません。しかし、あなたがそれを試してみないとわからないのですが;-)

+0

私は訓練データの任意の量を生成することができます(私はシミュレーションから作業しています!)ので、私は間違いなくこれを試してみます。ありがとう! – rhombidodecahedron

+0

私はちょっと混乱しています。リンクした最初の2つのサイトを読んだことがあります。これらのサイトは、主に学習したモデルからサンプルを生成するために使用されているようです。これらのアーキテクチャは、通常のニューラルネットワークが訓練されている従来の回帰/分類タイプのタスクにも使用できますか? – rhombidodecahedron

+0

はい、RNNをシーケンスラベリングに使用できます。通常は、1つのシーケンス内に複数のクラスがあり、どこで分割するのかわからないときに使用されますが、シーケンスに対して1つのクラスのみが可能である必要があります。しかし、今私はこの論文をよく知っていません。 –