2017-03-03 18 views
1

私はword2vecのCバージョン(https://code.google.com/archive/p/word2vec/にあります)を使用しており、Wikipediaのドイツ語版のフィルタリングされたダンプ(約17 GBの原文、〜1.4 B語)で訓練しています。私は、次の設定を使用しています:ドイツ語wikipediaでのWord2vec C++トレーニング

-cbow 1 -size 300 -window 5 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15 -min-count 1000

結果の出力ファイルが含まれている〜50Kの言葉は、しかし、それらのどれもが、文字A、ö、üやßが含まれていません。私は、word2vecがそれらの文字を含む単語を含む小さなコーパスを作成することによってそれらを処理できることを検証し、それらは出力に現れました。

これらの文字を含む単語が出力ファイルに表示されない原因は何ですか?それは何らかの形でコーパスの大きなサイズや、私が使用している設定のいずれかに関係していますか?

答えて

0

コーパスのサイズには関係しません。私はウィキペディアのダンプやドイツ語のニュース記事(語彙600k語)で同様の設定をしたドイツのモデル(下記のリンクを参照)を訓練し、ドイツのウムラウトの単語の単語ベクトルも生成しました。あなたが行うことができます

もの:

  • は、(それぞれのバイグラムトークンにウムラウトを変換することによって、この問題を回避するUTF-8
  • であるためにあなたのコーパスファイルの文字エンコーディングだけでなく、あなたのトレーニング環境を確認してください前
  • におけるA→のAE等SS→SS)word2vecがC実装を使用してドイツ語コーパス(上ではなくgensimで塗布したthis projectをチェック)
関連する問題