2016-09-30 6 views
1

NLPの研究分野は初めてです。私は論文を実装したいCan Artificial Neural Networks Learn Language Models?このペーパーでは、ニューラルネットワークが言語モデルを学ぶことができるように、最初にステップがとられました。私はこの論文を理解しました。紙の最後の部分ではすべてが分かりやすいものです。人工ニューラルネットワークは言語モデルを学習できますか?ペーパー2000の実装

私はそのコードを発見しませんでした。紙が古すぎる(2000)私はその時に使用されたトレーニングデータ(Communicator Telephone Air Travel Information System)も見つかりませんでした。

私はこのことについて、両方の教授にメールしましたが、そのうちの1人のメールIDが期限切れで、他の人からの応答を待っています。

誰でもこの状況で私を助けることができますか?あなたのガイドラインは、研究分野の新しい人にとって貴重です。私はあなたに感謝します。

答えて

1

NLPによると本当に古い文書ですが、この文書は、ブラックボックス技術を使って言語モデルを学ぶNLPの新しいERAの始まりのように見えます。そして、さらなる発展がWORD EMBEDDING私はこのアイデアが2008年にGoogleのMikolovによって発表されたことを覚えています(googleはtechnic-word2vecと呼ばれています)。これは、単語がn次元のベクトル(Googleのword2vecではn = 128)として提示されるように、再学習ニューラルネットワークを使用してモデルを学習します。この表現は、類似の単語が他の単語よりも宇宙で互いに近いので、非常に良いことが判明しました。算術演算もそこで動作します。例:germany-capital + paris = france。 単語の埋め込みに応じて良い記事、説明、テンソルフローの実装があります。 https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html 既にいくつかの実装があります。また、独自のモデルを学習するための準備済みのコーパスデータもあります。私はリンクを修正

編集

- 間違ったものでした。 また、C++のgoogleコードにはword2vecの実装がありますが、Googleコードプロジェクトでは非常に便利なのは、さらに多くのdatです。そこ https://code.google.com/archive/p/word2vec/ ヨーヨーは、事前に訓練されたモデル(1.5ギガバイト)を見つけても、データを訓練するためにリンクすることができます:ここにリンクがある トレーニングデータを取得するために

言葉の質は量を大幅に増加ベクトル のトレーニングデータ。ウィキペディアから億

  • まず文字(マット・マホーニーのページの一番下から前処理perlの スクリプトを使用)
  • 最新:研究目的のために、あなたは、オンラインで利用可能なデータ セットの使用を検討することができますウィキペディアダンプ クリーンテキストを取得するために、上記と同じスクリプトを使用します。 30億語以上である必要があります。
  • WMT11サイト:いくつかの言語 ためのテキストデータが「ワン億Wordの言語モデルのベンチマーク」ほとんど1B 言葉、すでに前処理されたテキストから
  • データセット(文章を複製モデルを訓練する前に削除する必要があります)。
  • UMBCウェブベースコーパス約3 億ワード、詳細はこちら。さらなる処理が必要(主に トークン化)。 - より多くの言語のテキストデータは、 statmt.orgとPolyglotプロジェクトで入手できます。
+0

ありがとうございました。このリンクはMNISTのデータセットを使用しています。実際のNLPデータを使用するいくつかの例を共有できますか?それはより相対的であろう。 –

+0

ああ申し訳ありませんが間違ったリンクを入れました。私はそれを編集した。これは適切なものです: https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html – Krzysiek

+0

私は答えを編集しました。興味深いものをいくつか見てみましょう。 – Krzysiek

関連する問題