私はテキストデータでいっぱいの列を持つcsvファイルを持っています。どのように私は一定のデータでそれらを置き換えることができますので、私はそのデータセットで機械学習アルゴリズムを適用することができます。 データセットの例:日付、名前、色名、ユーザー名および製品名。PythonでMLアルゴリズムの機能としてテキストデータをエンコードするにはどうすればよいですか?
答えて
データを分類しようとしています。次のことを試してみてください。
例1:次のように少数の種類があると仮定すると、色名および製品名については、あなたがマップすることができます:
# Color_name mapping
color_mapping = {"red": 1, "yellow": 2, "blue": 3, "green": 4, "pink": 5}
dataset['color_name'] = dataset['color_name'].map(color_mapping)
# Product_name mapping
product_mapping = {"product1": 1, "product2": 2, "product3": 3, "product4": 4, "product5": 5}
dataset['product_name'] = dataset['product_name'].map(product_mapping)
例2:user_nameの彼らはのように分類することができない場合次の操作を実行できます。
名前からタイトルを抽出してみてください。
例:タイトル氏、氏、夫人などで始まる名前を抽出することができると
title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3}
dataset['user_name'] = dataset['user_name'].map(title_mapping)
に応じて実施例3をグループ化することができます。日付については、あなたができるグループを、それらを別の年に属する日付としていくつかの特定の期間などに使用することができます。
実際、上の回答とコメントは、作業の半分について説明しています。 1,2,3、...は、符号化された単語内の空間依存性を意味する。 1は3よりも2に近いので、「赤」は「青」より「黄」に近くなります。 整数値に変換を適用した後は、one-hot-encodingのようなものにする必要があります。
あなたはパンダを使用している場合は、sklearn使用している場合はワンホット・エンコーディングは、あなたの実際のデータを吹くのでget_dummies
をチェックアウトLabelBinarizer
(Here you can find a very good tutorial on how to deal with categorical data)
のために行くあなたがかもしれないネットワークに供給次元削減技術を先に使うことを検討してください。あるいは、おそらく最も良い方法は、いわゆるword embeddingsを使用することです。現代のNLPアプリケーションのゲームチェンジャーであったため、今日では、実際のテキストデータに単語埋め込みを使用することをお勧めします。単一の単語だけを扱っている場合、単語の埋め込みの必要はありません。
乾杯
- 1. Cloud MLを使用して機能をワンホットエンコードするにはどうすればよいですか?
- 2. Pythonを使用してテキストデータと非テキストデータの両方に多項式naive bayesを使用するにはどうすればよいですか?
- 3. アルゴリズムで日付機能を使用するにはどうすればよいですか?
- 4. PythonでCloud MLサービスアカウントをプログラムで取得するにはどうすればよいですか?
- 5. URLエンコードはどのように機能しますか?
- 6. このアルゴリズムはどのように機能しますか?
- 7. Python-リピート機能で失敗したテストケースを修正するにはどうすればよいですか?
- 8. ドキュメント差分アルゴリズムはどのように機能しますか?
- 9. Construct Rectangleアルゴリズムはどのように機能しますか?
- 10. MD5Sumアルゴリズムはどのように機能しますか?
- 11. NSCodingを使用してSwift 3でエンコードおよびデコード機能がどのように機能しますか?
- 12. Visual Cでビデオをエンコードするにはどうすればよいですか?
- 13. MeteorでBase64データURIとしてイメージアセットをエンコードするにはどうすればよいですか?
- 14. Googleアナリティクスの機能をブロッキングコールとして使用するにはどうすればよいですか?
- 15. プラグイン機能を追加するにはどうすればよいですか?
- 16. Redux:ディスパッチ機能をインポートするにはどうすればよいですか?
- 17. ログアウト機能を追加するにはどうすればよいですか?
- 18. グローバルテンプレートヘルパー機能を定義するにはどうすればよいですか?
- 19. 機能エントリポイントを取得するにはどうすればよいですか?
- 20. 絵をキャンバスの上にゲームキャラクターとして機能させるにはどうすればよいですか?
- 21. 最初の機能から次の機能に移行するにはどうすればよいですか?
- 22. Javaでエンコード/デコードのバイトはどのように機能しますか?
- 23. Pythonでメモリはどのように機能しますか?
- 24. ASP.NET TextBoxのコンテンツをHTMLエンコードしないようにするにはどうすればよいですか?
- 25. テキストデータでデータセットを整理して分類するにはどうすればいいですか?
- 26. 内部機能を独自の機能に変更するにはどうすればよいですか?
- 27. フォームデータをエンコードするにはどうすればよいですか?
- 28. パラメータとしてプロトタイプ機能を使用するにはどうすればよいですか?
- 29. URLEncodingをコロンをエンコードしないようにするにはどうすればよいですか?
- 30. Pythonでどのようにエンコードするのですか?
データを適切に記述し、それに何をしたいのかを記述する必要があります。 –
私は色の名前がありますが、それらを置き換えることができ、私はユーザー名を持っています –
あまりにも多くのオプションがあり、あなたのデータに最適なものを選択する必要があります。 あなたがすること: 1.一意の単語のリストを作成し、それぞれにidを与え、データセットの各単語をそのidに置き換えます。 2.単語埋め込みレイヤーを使用します。 –