私はword2vecのCバージョン(https://code.google.com/archive/p/word2vec/にあります)を使用しており、Wikipediaのドイツ語版のフィルタリングされたダンプ(約17 GBの原文、〜1.4 B語)で訓練しています。私は、次の設定を使用しています:ドイツ語wikipediaでのWord2vec C++トレーニング
-cbow 1 -size 300 -window 5 -negative 25 -hs 0 -sample 1e-4 -threads 20 -binary 1 -iter 15 -min-count 1000
結果の出力ファイルが含まれている〜50Kの言葉は、しかし、それらのどれもが、文字A、ö、üやßが含まれていません。私は、word2vecがそれらの文字を含む単語を含む小さなコーパスを作成することによってそれらを処理できることを検証し、それらは出力に現れました。
これらの文字を含む単語が出力ファイルに表示されない原因は何ですか?それは何らかの形でコーパスの大きなサイズや、私が使用している設定のいずれかに関係していますか?