クールで良いスタート!
あなたが実装にジャンプする前に、私はいくつかの基本を学ぶことをお勧めします。とにかく、ここにあなたの質問への回答です。
!!
フィーチャエンジニアリング:名前のとおり、データにはモデルの精度が低下する可能性があります。小文字、大文字、数字、特殊文字、行がいくつかの特殊文字などで終わっているような言葉のようなものです。しかし、再びそれはあなたが持っているデータのタイプに依存しています!
言語をベクターに:任意のタイプの言語、最後はテキスト(ここではあなたの場合)です。ベクトル表現を単語または文字にすることができます。このベクトル表現は、1つのホットベクトルまたはword2vecや手袋のような事前構築されたメソッドを使用して取得できます。
ホットベクトル1つ:トレーニングデータセットから100語があるとします。単語ごとにk次元のベクトルを作成します。 kは単語の総数である。 sord単語を文字位置で表示します。そしてthireソート順序に基づいて、そのインデックス位置1を維持してベクトルを作成し、0
ex: [1 0 0 0 0 ....] - word1
[0 1 0 0 0 ....] - word2
[0 0 0 0 0 ...1] - word100
非ワード機能として残り:ワード機能 クライアント製品名と同じルールに従います - 彼らのような1つのホットベクトルを作成しますテキストでは通常使用されません。実生活では意味がありません。
どのようにNNを選択するか: - 達成したいものによって異なります。 NNは多くの目的で多くの方法で使用できます。
データが不十分です: - データにも依存します。 !!あなたのデータがより一般的なパターンを持ち、将来のデータでもこれらのパターンが来るなら! NNを使用しても問題ありません。それ以外の場合は、NNを使用することはお勧めしません。
Good Luck !!
ここで質問をして、より詳しい回答を得ることができます:http://stats.stackexchange.com/ 自然言語処理(NLP)を行う必要があります。ウェブ上にはたくさんの例があります。グーグルの「NLP feature extraction」を試してみてください。 幸運を祈る! – Hugo