スパースデータの分類

分類/予測問題のために最善の選択をするのに苦労しています。私はタスクを説明しましょう - 私は異なる研究論文の要約からキーワードのデータベースを持っている、また、特定の影響要因を持つジャーナルのリストがあります。私は、キーワードに基づいて記事の分類のためのモデルを構築したい、その結果は、与えられたキーワードとの可能な影響因子（さらなるジャーナル記述なしの数字としてとらえられる）である。一意のキーワードタグは統計的に有意ではないので削除しました。抽象的なリスト（キーワード合計6000回）で2回以上繰り返されるキーワードしかありません。私はダミーコーディングを考えています - それぞれの記事について、バイナリ特徴ベクトル6000の長さの属性を作成します - 各属性は、抽象的にキーワードの存在を参照し、SVMによって全体の集合を分類します。私はこのソリューションが非常にエレガントではないと確信しているでしょうし、おそらくまた正しくないと思います。あなたはよりよい取引の提案をしていますか？スパースデータの分類

出典

2016-05-28 tretyacv

このコーディング戦略をテキストおよびサポートベクターマシンに使用する場合、何も問題はありません。実際の目的のため

：

サポートベクトル回帰（SVR）は、ジャーナルインパクトファクターに注意
より適切であり得ます。それは非常に原油です。時間的側面を考慮する必要があります。多くの非常に良い作品は雑誌には全く掲載されていません

出典

2016-05-28 13:29:03

答えて

関連する問題