1

私はページの分類、特に単語の袋に基づく文書のページの検索、ページのレイアウトの作成、テーブルの有無の確認、太字のタイトルの作成などを試みています。この前提で、私はpandas.DataFrameを作成しました。各ドキュメントのために:この変数を使用して文書分類に使用する分類アルゴリズムは何ですか?

 
    page totalCharCount matchesOfWordX matchesOfWordY   hasFeaturesX  hasFeaturesY hasTable  score 
0 0.0   608.0    0.0    2.0     0.0    0.0  0.0  0.0 
1 1.0   3292.0    1.0   24.0     7.0    0.0  0.0  0.0 
2 2.0   3302.0    0.0   15.0     1.0    0.0  1.0  0.0 
3 3.0   26.0    0.0    0.0     0.0    1.0  1.0  1.0 
4 4.0   1851.0    3.0   25.0     20.0    7.0  0.0  0.0 
5 5.0   2159.0    0.0   27.0     6.0    0.0  0.0  0.0 
6 6.0   1906.0    0.0    9.0     15.0    3.0  0.0  0.0 
7 7.0   1825.0    0.0   24.0     9.0    0.0  0.0  0.0 
8 8.0   2053.0    0.0   20.0     10.0    2.0  0.0  0.0 
9 9.0   2082.0    2.0   16.0     3.0    2.0  0.0  0.0 
10 10.0   2206.0    0.0   30.0     1.0    0.0  0.0  0.0 
11 11.0   1746.0    3.0   31.0     3.0    0.0  0.0  0.0 
12 12.0   1759.0    0.0   38.0     3.0    1.0  0.0  0.0 
13 13.0   1790.0    0.0   21.0     0.0    0.0  0.0  0.0 
14 14.0   1759.0    0.0   11.0     6.0    0.0  0.0  0.0 
15 15.0   1539.0    0.0   20.0     3.0    0.0  0.0  0.0 
16 16.0   1891.0    0.0   13.0     6.0    1.0  0.0  0.0 
17 17.0   1101.0    0.0    4.0     0.0    1.0  0.0  0.0 
18 18.0   2247.0    0.0   16.0     5.0    5.0  0.0  0.0 
19 19.0   598.0    2.0    3.0     1.0    1.0  0.0  0.0 
20 20.0   1014.0    2.0    1.0     16.0    3.0  0.0  0.0 
21 21.0   337.0    1.0    2.0     1.0    1.0  0.0  0.0 
22 22.0   258.0    0.0    0.0     0.0    0.0  0.0  0.0 

私はナイーブベイズとSVMアルゴリズムの外観を取っているが、私は、問題とのより良いフィットするかわからないんだけど。変数は独立しています。それらのうちのいくつかはスコアを上げるために存在しなければならず、その一部はtotalCharCountのような逆文書頻度に一致します。

助けが必要ですか?

ありがとうございます!

答えて

0

あなたのラベルは連続したスコアなので、これは回帰の問題です。 SVMは分類の問題でより一般的です。そこには多くの可能なアルゴリズムがあります。ロジスティック回帰は、このようなものを解決するためにはかなり一般的です。

編集は、あなたがあなたの問題が

分類:-)分類問題になった自分の投稿を編集したことを今

=いくつかのクラスは、あなたのデータは(TRUE、FALSE)、または多項ブールなどの分類にしたいです(ビッグ、中東、小型、超小型)

回帰=連続値(0と1の間のすべての実数)

今、あなたはあなたのSVMを試してみて、それが動作するかどうかを確認することができますあなたのデータに十分に十分です。私はあなたがより多くのデータを持っていると仮定し、質問はデータに多くを依存します

は、一般的に

+0

私は予測しようとしているものです。値は0または1で、見つけようとしているページと一致します。私は投稿を編集しました。私はロジスティック回帰アルゴリズムを見ていきます。応答フロリダ、ありがとう! – rePack

0

(スケーリング、均衡)彼はいくつかの良い点を持っているマキシムの答えは、@を参照してください、それが最適に動作するかを法と言うのは難しいです。しかし、まだ、いくつかのアイデアをhere're:

  • あなたは機能が独立していると言っているけれども、それはtotalCharCountmatchesOfWordYが依存しているように思えます。私は、文書中の文字数が多いほど、一致する可能性が高いと仮定することは合理的だと思います。それは強いサインだに対してナイーブベイズ。

  • バイナリロジスティック回帰がはるかに良くなり、私の最初の候補になります。しかし、スケールは他のフィーチャよりもはるかに大きいように見えるので、totalCharCountフィーチャを正規化することをお勧めします。

  • クラス1の学習例がそれほどないかぎり、データは展開されません。この場合、constant prediction problemに入る可能性があります。考えられる解決方法は、損失関数weighted cross entropyを使用することです。

  • SVM classifierに加えて、xgboost.XGBClassifierも考慮してください。どちらも非常に良い精度を与えることができます。

関連する問題