2017-05-31 7 views
-2

私はTensorflowで機械学習を学んでいます。 Irisの花のデータやBoston Houseのようなデータセットで作業しましたが、これらのデータの値はすべて浮動小数点です。 はいデータの値が含まれているデータセットを探していますが、これは実際の文字列形式です。私にいくつかの提案を教えてもらえますか?私はあなたにちょうど2つの簡単にスタート場所提供 おかげ機械学習の文字列値を含むデータセットを探す

+0

ようこそStackOverflow。ヘルプドキュメントの投稿ガイドラインを読み、それに従ってください。 [on topic](http://stackoverflow.com/help/on-topic)および[How to Ask](http://stackoverflow.com/help/how-to-ask)をここで適用してください。 StackOverflowは、デザイン、コーディング、リサーチまたはチュートリアルサービスではありません。 – Prune

+0

Tksプルーン。実際には、文字列データを含む新しいデータセットを扱う際に問題があり、そのためのガイドが見つかりません。次回は、より具体的な質問をします。 – Hung

答えて

1

  1. Tensorflowのウェブサイトは、ワード埋め込み、言語モデルおよびシーケンスとシーケンスのモデルに対処するための3つの非常に良いチュートリアルを持っています。私はそれらを直接リンクするのに十分な評判はありませんが、簡単にそれらを見つけることができますhere。人間言語に対応するテンソルフローコードを提供します
  2. さらに、モデルをゼロから構築したいだけで、データセットだけが必要な場合は、ntlk corporaを試してみてください。コードから直接ダウンロードするのは簡単です。
+0

ありがとう! :D – Hung

0

FacebookのParlAIプロジェクトは、自然言語処理タスクのためのデータセットの良い量を示しています

IMDB's reviewsデータセットもAmazon's reviews評判分析のために、また、典型的な例です。 Kaggleに投稿されたカーネルを見てみると、データセットとタスクに関する多くの洞察が得られます。

+0

はい私は機械学習のために新しいです。 – Hung