2017-11-03 11 views
1

H2O DeepWater R版のテキスト分類にword2vecとcnnを使用するためにrサンプルコードを提供できるかどうかは疑問ですか?私はすでに私のword2vecword embedding語彙ルックアップテーブルと文書のワードベクトル行列を訓練するh2orバージョンのパッケージを使用していたいずれかmexnetRまたはh2o deep water rWord2Vec埋め込みとH2O R上のCNN例

に非常に非常に少数のドキュメントがあります。ルックアップテーブルと元の生のテキストを組み合わせてmxnetR(カスタムイテレータ)CNN分類モデルに入れたり、h2o rを使ってCNNを直接ビルドするサンプルコードがあるかどうかは疑問です。

すべてのデータを一度にアレイ形式に変換すれば、マシンにはサポートするメモリが足りないため、私は尋ねています。

答えて

1

RAMが制約条件(非常に大きなコーパスでなければならない)であれば、mx.io.CSVIterを使用することができます。 CSVはバッチで記述することができ、トレーニング中にメモリフットプリントが制限されます。バニラmx.io.CSVIterを使用すると、ネットワーク内のデータへの初期変換としてXバッチX seq.lengthの機能をもたらすために、再形成を実行する必要があります。

もう1つの選択肢として、モデルの一部として埋め込みを学習することもできます。たとえば、このデモでは:http://dmlc.ml/rstats/2017/10/11/rnn-bucket-mxnet-R.htmlもあります。これには、RAM消費量も制限するバケット付きのカスタムiterの例もあります。

関連する問題