問題はregression (link)のカテゴリに該当します。機械学習の用語では、features (link)(質問に記載されています)のコレクションがあり、のスコアの値があります。の予測にこれらの機能があります。
Ted Hoppが提案したものは基本的にlinear predictor function (link)です。それはあなたのシナリオにはあまりにも単純なモデルかもしれません。
あなたの問題にはlogistic regression (link)を使用することを検討してください。ここでそれをどのように使用するかについて説明します。
1.それはあなたが快適に手でこれらm
ブログ記事に目を通すことができ、十分に小さいセットでなければなりません4000のあなたのセットからいくつかのm
ブログの記事を選択するランダムモデル学習データセット
を作成します。
m
ブログの投稿のそれぞれについて、「良い」と評価するのは、0
から1
までです。それが役に立つ場合は、0, 0.25, 0.5, 0.75, 1
の値に0, 1, 2, 3, 4
「星」を使用すると考えることができます。
今度はそれぞれm
個のブログ投稿があり、それぞれに一連の機能とスコアがあります。
"Upvote Count"、 "Comments Recieved"、 "Share Count"、および "Follower Count"の対数を含めることができるなど、派生機能を含むように機能セットを拡張することもできます。 「今」と「作成時刻」の間の時間数の対数を含めることができます。
2.お使いのモデル学習データセットにフィットするロジスティック回帰モデルを見つけるためにあなたのモデル
利用勾配降下を学びます。モデルの学習プロセスでこれらの各ステップを実行できるように、データセットをトレーニング,バリデーションおよびテストに分割する必要があります。
インターネットは詳細でいっぱいであり、それは缶詰のプロセスなので、このセクションでこれ以上説明しません。
ウィキペディアリンク:
3.
があなたのロジスティック回帰モデルを学んだあなたのモデルを適用し、あなたが今のスコアを予測するためにそれを適用することができますどのように新しいブログポストが "良い"か!一連のフィーチャ(および派生フィーチャ)を計算して、モデルを使用してそれらのフィーチャをスコアにマッピングするだけです。
ここでも、インターネットには、このセクションの詳細が含まれています。これは、缶詰のプロセスです。
ご不明な点がありましたら、お気軽にお問い合わせください。
機械学習の詳細については、the free online Stanford Machine Learning course on Coursera.orgをご検討ください。 (私はStanfordまたはCourseraと提携していません)
あまりにも広すぎると投票してください。 –