2016-11-13 10 views
1

sparkの音楽に関連するつぶやきについての感情分析に関するガイダンスが必要です。音楽に関するtwitterデータのセンチメント解析のための機能

私は、音楽に関連するつぶやきのツイッターデータについて感情分析を実行しようとしていました。ネット上でたくさんの検索をした後、私はtweepyのpython apiを使ってツイートを取得する方法を理解していますし、最終的にツイートを分類するために 'Naive Bayes classifier'を使うこともできることに気付きました。今私は、この分類のためのフィーチャを定義する方法について混乱しています。私は少なくとも500のフィーチャを定義することになっています。ここに私の質問があります。私はつぶやきの感情を見つけるために 'textblob'のような既に利用可能なAPIを使用したくありません。

1)誰かが音楽関連のつぶやきを分類するために使用できる機能の例を挙げることはできますか? [肯定的な訓練セットとして幸せな笑顔でつぶやきを使用することはできますか?もしそれらのツイートの言葉が私のクラシファイアの特徴ですか?]

2)この分類器のトレーニングセットはどのように生成するのですか?

3)ミュージック関連のつぶやきのつぶやきをフィルタリングしたい場合は、ブルームフィルタを使用してそれを達成できますか?

4)tweepy apiで得ることができるデータのサイズは?

私の理解に間違いがある場合は、私に修正してください。

答えて

2

感情分析は監督タスクであるため、トレーニング(およびテスト)セットが必要です。トレーニングセットでは、人間(頻繁に専門家と呼ばれる)によって頻繁に与えられるラベル(感情分析:正、負)が必要です。訓練セットのインスタンスの魔法の数は存在しません(私は1k5レコードで作業しました)。しかし、科学的証拠が必要な場合は、トレーニングセットのサイズの関数として、モデルの平均二乗誤差(MSE)を分析する必要があります。

1)最も一般的なアプローチはTF-IDFです。それは最高の機能(笑顔やその他の記号も)をランク付けします。あなたは機能の数を設定する必要があります。繰り返しますが、最良の数字はありません。モデルを調整するためのテストを行う必要があります。

2)各ツイートにラベル(肯定または否定)を付けたトレーニングセットが必要です。一般に、それは人間の注釈者によって得られる。

3)私はBloom Filterを一度も使用していません。

4)一般的に、Tweet apiはすべてのつぶやきの約1〜2%を与えます。 Tweepyはそれ以上のことはできないと思う。

こちらがお役に立てば幸いです。

関連する問題