2017-03-23 1 views
3

H2Oは最近、そのAPIにword2vecを追加しました。自分で提供するコーパスに自分の単語ベクトルを簡単に訓練できることは素晴らしいことです。h2o word2vecで使用するための事前ベクタを提供していますか?

しかし、GoogleやH2O.aiなどのソフトウェアベンダーがH2Oのエンドユーザーではなく、ネットワークの帯域幅のためにアクセスできるタイプの大きなデータと大きなコンピュータを使用することにより、さらに大きな可能性が存在します。電力制限を計算する。

ワード埋め込みは、教師なし学習の一種と見ることができます。したがって、特定のアプリケーションでインフラストラクチャとして非常に大きなコーパス上に構築された事前訓練された単語ベクトルを使用することによって、データサイエンスのパイプラインで大きな価値が得られます。一般的な事前訓練された単語ベクトルを使用することは、伝達学習の一形態と見ることができる。単語ベクトルを再利用することは、写真のエッジを検出することを学ぶ一般的な最下層のコンピュータビジョンディープラーニングに似ています。より高いレイヤーは、その下のエッジレイヤーから構成された特定の種類のオブジェクトを検出します。

たとえば、Googleは、word2vecパッケージでいくつかの事前に計算された単語ベクトルを提供しています。より多くの例があれば、監督されていない学習のほうが良いことがよくあります。さらに、個々のデータ科学者が、あなた自身の単語ベクトルを訓練するためのテキストの巨大なコーパスをダウンロードすることは、実際には困難な場合があります。また、ウィキペディアのような同じ汎用コーパス(corpi?)上で単語ベクトルそのものを訓練することによって、すべてのユーザーが同じホイールを再現する良い理由はありません。

ワード埋め込みは非常に重要であり、可能なアプリケーションの銀河の煉瓦とモルタルである可能性を秘めています。多くの自然言語データ科学アプリケーションの古い基礎であるTF-IDFは、代わりに単語埋め込みを使用することで時代遅れになっている。

3つの質問:

1 - H2Oは現在、任意の汎用pretrainedワード埋め込み(単語ベクトル)を提供しています、例えば、法的またはその他の公共の所有(政府)のウェブサイトで見つけたテキスト、またはウィキペディアやTwitterで訓練またはcraigslist、または他のフリーまたはオープンコモンズの人文書かれたテキストのソース?

2 - H2Oユーザーが医学や法律などのより特殊なコーパスに基づいて訓練されたword2vec単語ベクトルを共有できるコミュニティサイトはありますか?

3 - word2vecパッケージからGoogleの事前に作られた単語ベクトルをインポートできますか?

答えて

2

ご質問ありがとうございます。

あなたはカスタムモデルを必要とせず、事前訓練されたモデルがうまくいくことが多い多くの状況があります。私は人々が主に特定のドメインの小さな問題について独自のモデルを構築し、事前に訓練されたモデルを使用してカスタムモデルを補完することを前提としています。

CSVのような形式であれば、サードパーティの事前訓練モデルをH2Oにインポートできます。これは多くの利用可能なGloVeモデルに当てはまります。

フレーム(ただ、他のデータセットと同様)にその輸入にモデルを行うには:

w2v.frame <- h2o.importFile("pretrained.glove.txt") 

そして定期的なH2O word2vecモデルに変換します

w2v.model <- h2o.word2vec(pre_trained = w2v.frame, vec_size = 100) 

ことに注意してください埋め込みのサイズを指定する必要があります。

H2Oは、私が知る限り、w2vモデルのモデル交換/モデル市場を提供する予定はありません。オンラインで利用できるモデルを使用できます:https://github.com/3Top/word2vec-api

Googleのバイナリ形式の単語埋め込みのインポートはサポートされていませんが、サポートはGoogleのユーザーにとっては大変便利です。

+0

これらの有益な回答をいただきありがとうございます。 –

関連する問題