私は、感情によって分類された30,000のフレーズを持っています。層別化を実行するときにカテゴリの割合を維持する必要がありますか?
私はNaive Bayesを使用します。
ここに比率(感情 - >フレーズ数)があります。
anger 98
boredom 157
empty 659
enthusiasm 522
fun 1088
happiness 2986
hate 1187
love 2068
neutral 6340
relief 1021
sadness 4828
surprise 1613
worry 7433
私のモデルなどを実行するためにデータセットを列車/テストに分割する必要がありますか?
層別化を実行する際にカテゴリの割合を維持する必要がありますか?
つまり、テストサンプルで30%を選択した場合、データセット全体の30%ではなく、各センチメントの30%を維持する必要がありますか?
私はそう思いますが、私は経験豊富な意見を持っています。
あなたはどうしますか?だれかがここでPythonループを実行するのではなく、どの感情をテストするのか、30%を計算するのか、辞書に入れられるのか、もっと良い方法を知っていますか?
カテゴリ機能で層別化するパンダのトリックはありますか?
は説明をありがとうございました! –
@AlexanderFrancaFernandesあなたは大歓迎です – desertnaut