2016-08-13 1 views
0

私はテキスト分類のフィーチャエンジニアリングに取り組んでいます。私は機能を選択する上でのポイントで立ち往生しています。大部分の文学は、テキストをトークン化し、それらを機能(ストップワード、句読点を削除)として使用しますが、その後、(肺がん)やフレーズのような複数ワードの単語を逃します。したがって、問題はどのようにngramの順序を決定し、それらを機能として扱うかです。フィーチャエンジニアリングのためのNgram注文の選択

答えて

0

関連2グラム(このケースでは肺がん)は頻度で表示されます。私は肺がんを持っている人を知っている

:肺癌は恐ろしい病気です
は、次のテキストを想像してみてください。

2-gram vs Frequency

あなたは2グラムのリストを作成する場合は、最初に肺癌と終了します。と他の組み合わせ(「肺があります」、「憎しみ肺」)が続きます。
これは、単語の特定のグループが何かを表し、したがって繰り返し呼び出されるためで、他のものは2グラムの「環境」を形成するコネクタ(「has」または「hate」)のみであるためです。キーは周波数でフィルタリングすることです。

nグラムの生成に問題がある場合は、間違ったライブラリ/ツールセットを使用している可能性があります。

関連する問題