1

私はStanford Sentiment Analysis Datasetを使用して、いくつかの感情分析研究を行っています。データセットenter link description herehttp://nlp.stanford.edu/sentiment/index.htmlからダウンロードします。 readmeファイルを読んだ後、私はまだ混乱しています。Stanford Sentiment Analysis Datasetの使い方

最初の質問は、dictionary.txtファイルの「50446」の行では、それはこの文の「フレーズがをIDS」ショーは「No.226166」で、だから私はsentiment_lable.txtファイルで検索したとき、Iフレーズ「No.226166」の「センチメント値」は、「226168」の行にあります。0.69444です。しかし、dictionary.txtファイルの "50445"行では、この文は "50446"行の文と同じです。しかし、sentiment_lable.txtファイルには、このセンテンスには「センチメント値」とは異なる理由があります。

2番目の質問、いくつかの感情分析論文で、彼らはモデルを訓練するために訓練文にフルレングスの文を使用するだけでなく、モデルを訓練するための訓練文のサブパーツとして発生ラベルされたフレーズを使用していないだけ。しかし、dictionary.txt 2行目や3行目のようなファイルは役に立たないので、これらの役に立たないフレーズを使用してモデルを訓練する必要がありますか?

答えて

0

dictionary.txtファイルの形式は

<Phrase>|<ID> 

あるsentiment_labels.txtのフォーマットは、例えば

<Phrase ID>|<Score> 

そうで

id: 50445 phrase: control of both his medium and his message 
score: .777 

id: 50446 phrase: controlled display of murderous vulnerability ensures that malice has a very human face 
score: .444 
関連する問題