人工ニューラルネットワークは言語モデルを学習できますか？ペーパー2000の実装

NLPの研究分野は初めてです。私は論文を実装したいCan Artificial Neural Networks Learn Language Models?このペーパーでは、ニューラルネットワークが言語モデルを学ぶことができるように、最初にステップがとられました。私はこの論文を理解しました。紙の最後の部分ではすべてが分かりやすいものです。人工ニューラルネットワークは言語モデルを学習できますか？ペーパー2000の実装

私はそのコードを発見しませんでした。紙が古すぎる（2000）私はその時に使用されたトレーニングデータ（Communicator Telephone Air Travel Information System）も見つかりませんでした。

私はこのことについて、両方の教授にメールしましたが、そのうちの1人のメールIDが期限切れで、他の人からの応答を待っています。

誰でもこの状況で私を助けることができますか？あなたのガイドラインは、研究分野の新しい人にとって貴重です。私はあなたに感謝します。

出典

2016-09-30 Hammad Hassan

NLPによると本当に古い文書ですが、この文書は、ブラックボックス技術を使って言語モデルを学ぶNLPの新しいERAの始まりのように見えます。そして、さらなる発展がWORD EMBEDDING私はこのアイデアが2008年にGoogleのMikolovによって発表されたことを覚えています（googleはtechnic-word2vecと呼ばれています）。これは、単語がn次元のベクトル（Googleのword2vecではn = 128）として提示されるように、再学習ニューラルネットワークを使用してモデルを学習します。この表現は、類似の単語が他の単語よりも宇宙で互いに近いので、非常に良いことが判明しました。算術演算もそこで動作します。例：germany-capital + paris = france。単語の埋め込みに応じて良い記事、説明、テンソルフローの実装があります。 https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html 既にいくつかの実装があります。また、独自のモデルを学習するための準備済みのコーパスデータもあります。私はリンクを修正

編集

は

- 間違ったものでした。また、C++のgoogleコードにはword2vecの実装がありますが、Googleコードプロジェクトでは非常に便利なのは、さらに多くのdatです。そこ https://code.google.com/archive/p/word2vec/ ヨーヨーは、事前に訓練されたモデル（1.5ギガバイト）を見つけても、データを訓練するためにリンクすることができます：ここにリンクがあるトレーニングデータを取得するために

言葉の質は量を大幅に増加ベクトルのトレーニングデータ。ウィキペディアから億

まず文字（マット・マホーニーのページの一番下から前処理perlのスクリプトを使用）

最新：研究目的のために、あなたは、オンラインで利用可能なデータセットの使用を検討することができますウィキペディアダンプクリーンテキストを取得するために、上記と同じスクリプトを使用します。 30億語以上である必要があります。

WMT11サイト：いくつかの言語ためのテキストデータが「ワン億Wordの言語モデルのベンチマーク」ほとんど1B 言葉、すでに前処理されたテキストから

データセット（文章を複製モデルを訓練する前に削除する必要があります）。

UMBCウェブベースコーパス約3 億ワード、詳細はこちら。さらなる処理が必要（主にトークン化）。 - より多くの言語のテキストデータは、 statmt.orgとPolyglotプロジェクトで入手できます。

出典

2016-09-30 06:15:19 Krzysiek

ありがとうございました。このリンクはMNISTのデータセットを使用しています。実際のNLPデータを使用するいくつかの例を共有できますか？それはより相対的であろう。 –

ああ申し訳ありませんが間違ったリンクを入れました。私はそれを編集した。これは適切なものです： https://www.tensorflow.org/versions/r0.10/tutorials/word2vec/index.html – Krzysiek

私は答えを編集しました。興味深いものをいくつか見てみましょう。 – Krzysiek

人工ニューラルネットワークは言語モデルを学習できますか？ペーパー2000の実装

答えて

関連する問題