H2Oは最近、そのAPIにword2vecを追加しました。自分で提供するコーパスに自分の単語ベクトルを簡単に訓練できることは素晴らしいことです。h2o word2vecで使用するための事前ベクタを提供していますか?
しかし、GoogleやH2O.aiなどのソフトウェアベンダーがH2Oのエンドユーザーではなく、ネットワークの帯域幅のためにアクセスできるタイプの大きなデータと大きなコンピュータを使用することにより、さらに大きな可能性が存在します。電力制限を計算する。
ワード埋め込みは、教師なし学習の一種と見ることができます。したがって、特定のアプリケーションでインフラストラクチャとして非常に大きなコーパス上に構築された事前訓練された単語ベクトルを使用することによって、データサイエンスのパイプラインで大きな価値が得られます。一般的な事前訓練された単語ベクトルを使用することは、伝達学習の一形態と見ることができる。単語ベクトルを再利用することは、写真のエッジを検出することを学ぶ一般的な最下層のコンピュータビジョンディープラーニングに似ています。より高いレイヤーは、その下のエッジレイヤーから構成された特定の種類のオブジェクトを検出します。
たとえば、Googleは、word2vecパッケージでいくつかの事前に計算された単語ベクトルを提供しています。より多くの例があれば、監督されていない学習のほうが良いことがよくあります。さらに、個々のデータ科学者が、あなた自身の単語ベクトルを訓練するためのテキストの巨大なコーパスをダウンロードすることは、実際には困難な場合があります。また、ウィキペディアのような同じ汎用コーパス(corpi?)上で単語ベクトルそのものを訓練することによって、すべてのユーザーが同じホイールを再現する良い理由はありません。
ワード埋め込みは非常に重要であり、可能なアプリケーションの銀河の煉瓦とモルタルである可能性を秘めています。多くの自然言語データ科学アプリケーションの古い基礎であるTF-IDFは、代わりに単語埋め込みを使用することで時代遅れになっている。
3つの質問:
1 - H2Oは現在、任意の汎用pretrainedワード埋め込み(単語ベクトル)を提供しています、例えば、法的またはその他の公共の所有(政府)のウェブサイトで見つけたテキスト、またはウィキペディアやTwitterで訓練またはcraigslist、または他のフリーまたはオープンコモンズの人文書かれたテキストのソース?
2 - H2Oユーザーが医学や法律などのより特殊なコーパスに基づいて訓練されたword2vec単語ベクトルを共有できるコミュニティサイトはありますか?
3 - word2vecパッケージからGoogleの事前に作られた単語ベクトルをインポートできますか?
これらの有益な回答をいただきありがとうございます。 –