2017-02-28 16 views
0

これで、NaiveBayesアルゴリズムを使用してムービーレビュークラシファイアをトレーニングすることができました。課題は次のとおりです。レビューで分類器をテストする

あなたのクラシファイアを、歩行が死んでいると否定的な評価からテストします。

http://metro.co.uk/2017/02/27/the-walking-dead-season-7-episode-11-hostiles-and-calamities-wasnt-as-exciting-as-it-sounds-6473911/#mv-aは今、私の本は、分類文書の例を与え、それが今、私は、これは、文書の機能だった理解.... classifier.classify(df)を使用してなど

私の質問は、トークン化されなければならなかった:それはそこにいくつかの私のクラシファイアをURLだけを使ったレビューに対してテストする方法は?または、レビューのすべての単語を強調表示したり、文字列や文書として保存したり、トークン化したりする必要がありますか?

答えて

1

あなたのプログラムは、このようなURLの内容を読み取ることができます。しかし、あなたは内容(すなわち「こすり」する必要がありますので、あなたは、HTML文書にポイントを示唆してURLを

with urllib.urlopen("http://example.com/review.html") as rec: 
    data = rec.read() 

をレビューの本文を抽出し、太字などを削除して「プレーンテキスト」に変換します)。このためには、BeautifulSoupまたは類似のものを使用できます。 (NLTKは削り取り機能を持っていましたが、それはBeautifulSoupの方が有利でした)。これを行う方法を既に学んでいない限り、いくつかのテストドキュメントをブラウザからコピーしてメモ帳のようなテキストのみのエディタは、すべてのマークアップを削除します。

関連する問題