2016-03-22 7 views
0

生データ:サポートベクターマシン - 記事の人気を予測する - 何が間違っているのですか?

記事の内容とタイトル。 10000件の記事

特徴:タイトルの言葉の(私はデータからそれらを抽出)

数は、物品の言葉の

数のFacebookの

がお好き

公開期間:週末かどうか

まず、私はMLには非常に新しいと言っておきます。

私はSVMでモデルを構築するために必要なデータを使用しようとしています。このモデルは、記事が人気があるかどうかを予測します。 トレーニングデータを使って5Dマップ(4つのフィーチャと4つのフィーチャの4つのディメンションとバイナリの人気情報の1つ)を作成しました。各記事とその特徴は5D空間に点を持つでしょう。

私はSVMでこの5Dマップを使用して、最適なマージンを作成しようとしています。

次に、このマージンを使用してテストデータの人気を予測します。

実装に関しては、私は非常に固執しています。

何か間違っていますか?この問題でSVMをどのように使うべきですか?

何か助けていただければ幸いです。ありがとうございました!

+0

SVMの実装に使用している言語/ソフトウェアおよびカーネルはありますか? – ode2k

+0

@ ode2kカーネルとして線形多項式とガウス関数を使うことを望んでいます。言語は今のところmatlabです – user4751640

答えて

0

あなたの機能は、何か人気があるかどうかを予測するのに十分だと思いますか?あなたが捨ててしまったすべての情報(実際の文書の内容)、欠落している情報(誰が出版物のソースであるか、自分のネットワークはどういうものか)、あなたのデータからはっきりしない質問誰と異なるグループの人が異なることを好き/嫌いなのか)。あなたは

  1. に必要

    は、一般的に機械学習詳細については、こちらをご覧ください。

  2. フィーチャエンジニアリングについて学び、テキストベースのデータ(センチメント分析、トピックモデリング、スパムフィルタリング)を使った以前の作業を探します。
  3. データで仮説を構築し、テストする方法を学びます。この場合、明らかにロットのエラーが発生している可能性がありますが、これはほとんどが初心者の仕事であるためです。これらの質問は一般的には常に問題とデータに依存するため、一般的な情報を提供しアドバイスを求めるのに役立たないことがよくあります。もう少しMLを学ぶと、あなたのモデルが何を意味するのか、そのパフォーマンスが何を意味するのか考える必要があります。それで、あなたのパフォーマンスについての仮説を立て、それを試してみることができます。結果に基づいて、モデルやデータについて何かを変更して繰り返します。
+0

お返事ありがとう!私は機能がそれほど良いとは思わない。あなたの全体的な提案はまさに私がやろうとしているものです。私はいくつかのMLメソッドで機能を使用しようとしています。次に、それぞれの精度を観察します。それから、私がなぜ私が得た結果を得るのか説明しよう。私はこの時点で良い予測の後ではない。私はちょうど "徹底的に" "導入"レベルでこの問題に取り組みたいと思います。私は多くのプロジェクト・ペーパーを読みましたが、私はそれらを知っていると仮定して重要な詳細をすべてスキップします。すぐに手を汚すのはどうすればいいですか? – user4751640

+0

「私は多くのプロジェクト・ペーパーを読んだが、私がそれらを知っていると仮定すると、それらはすべて重要な詳細を飛ばす。クイックと汚い間違った方法(IMHO)は、学習について行くことです。 –

関連する問題