ナイーブベイズ分類器を訓練しようとしており、データに問題があります。私は抽出テキスト要約のためにそれを使用する予定です。ナイーブベイズ分類器抽出要約
Example_Input: It was a sunny day. The weather was nice and the birds were singing.
Example_Output: The weather was nice and the birds were singing.
私が使用することを計画し、すべての文書にまとめるために、少なくとも1文があるデータセットを持っています。
私はsklearnを使うことに決めましたが、私が持っているデータの表現方法はわかりません。すなわち、XとY。
from sklearn.naive_bayes import MultinomialNB
clf = MultinomialNB().fit(X, y)
私の心に最も近いが、このようにそれを作ることです:目標値が1を意味
X = [
'It was a sunny day. The weather was nice and the birds were singing.',
'I like trains. Hi, again.'
]
y = [
[0,1],
[1,0]
]
- 含まれていない - 概要と0に含まれています。これは残念なことにyが1-d配列であると予想されるため、形が悪い例外を与えます。私はそのように表現する方法を考えることができないので、助けてください。
btwの文字列値はX
に直接は使用しませんが、sklearnのCountVectorizer
とTfidfTransformer
のベクトルとして表現しています。
あなたの答えをありがとう。それはうまくいくでしょうが、確かに私のものよりも優れていますが、この方法では、すべてのものが1とみなされるため、分類者は文章中の文の場所を考慮しません。私もそれを含めることができる方法はありますか? – Nikola
@nikolaは複数の行を入力として受け取り、nltk sentence tokenizerを使用してそれを分割し、それぞれを予測しますが、クラス1の予測を持つ出力にそれらの文だけを出力します – abhinav