2016-05-28 15 views
0

分類/予測問題のために最善の選択をするのに苦労しています。私はタスクを説明しましょう - 私は異なる研究論文の要約からキーワードのデータベースを持っている、また、特定の影響要因を持つジャーナルのリストがあります。私は、キーワードに基づいて記事の分類のためのモデルを構築したい、その結果は、与えられたキーワードとの可能な影響因子(さらなるジャーナル記述なしの数字としてとらえられる)である。一意のキーワードタグは統計的に有意ではないので削除しました。抽象的なリスト(キーワード合計6000回)で2回以上繰り返されるキーワードしかありません。私はダミーコーディングを考えています - それぞれの記事について、バイナリ特徴ベクトル6000の長さの属性を作成します - 各属性は、抽象的にキーワードの存在を参照し、SVMによって全体の集合を分類します。私はこのソリューションが非常にエレガントではないと確信しているでしょうし、おそらくまた正しくないと思います。あなたはよりよい取引の提案をしていますか?スパースデータの分類

答えて

0

このコーディング戦略をテキストおよびサポートベクターマシンに使用する場合、何も問題はありません。実際の目的のため

  • サポートベクトル回帰(SVR)は、ジャーナルインパクトファクターに注意
  • より適切であり得ます。それは非常に原油です。時間的側面を考慮する必要があります。多くの非常に良い作品は雑誌には全く掲載されていません