2017-06-30 18 views
-2

私は非常に新しいpythonと機械学習です、私はいくつかの定義済みのカテゴリまたはこのようなタグを設定しました[cricket, football, politics, education, movie]など私は特定の記事を識別したいカテゴリを指定したい記事の単語の袋のような所与のカテゴリの単語カウントの大部分と一致する。Pythonを使用して指定されたカテゴリの記事分類

しかし、BOW(単語のバッグ)は、物品のこの次の例を考えてみたとえば私の問題を解決していない:Politicsに装着Cricketカテゴリと第二の物品に取り付けられたこの2つの記事の最初の記事上記で

article 1: " BCCI nominate Ravi Shatri name as Indian coach " article 2: " Sachin Tendulakar is a member of Rajya Sabha "

をしかし、BOWのこの記事は与えられたカテゴリのいずれにも当てはまらない。

私の質問はどのようにこの記事の分類問題を解決するためのアルゴリズムですが、これには最適なスイートです。どんな助けでも大変感謝しています。

+0

あなたに便利な方法には、最近隣、SVMまたはニューラルネットワークがあります。しかし、それは問題の複雑さとあなたが選ぶべき方法の訓練データの量に依存します – Mathias

答えて

1

クリケット、フットボール、政治、教育、映画の関連記事のデータを収集します。データセットは段落になり、上記のようにカテゴリの1つに属します。

ここで、記事を指定すると、この記事が属するカテゴリを予測できる分類子を訓練します。あなたは分類のための記事の単語表現の最も簡単なバッグから始め、次に結果と精度を分析することができます。その後、単語からベクトルへの文書化や単語表現のためのベクトルへの文書化のようなより洗練されたアプローチに進み、分類子を訓練することができます。

分類モデルを作成した後、テスト文書にカテゴリを割り当てるには、分類モデルを使用してカテゴリを分類する必要があります。

関連する問題