0

私はWekaを初めて利用しています。私は感傷的な映画のレビューを分類しようとしています。つまり、単語の出現をトークン化して属性付けするStringToWord Vectorを理解できます。パーツオブパーツタグを属性ボキャブラリにも追加したいのですが、どのように悩んでいますか?Weka POSタギング+トークン化

誰もこれを前に試しましたか?

教えてください。

P.S。私はPOSタグ付けのためにOpenNLPを使用しており、Weka J48分類器を使用しています!

+0

テキストファイルをアップロードしてからWekaでトークン化しましたか? –

+0

うん、やったよ。私はTextDirectoryLoaderクラスを使用して、インスタンスのデータとStringToWordVectorまたはトークンでデータにアクセスしました。今、トークン化された属性ごとにPOSタグを追加する方法を理解できません。 私は自分自身で単語の出現を数えてみましたが、自分でARFFファイルを作成しましたが、エラーIOExceptionが早すぎます... –

答えて

0

試行錯誤のアプローチ:

テキストファイルにPOStaggedデータを書き込み、その後、word2vecを行うような何かを。次に、単語とPOSタグの間の距離をチェックします。最も近いものはPOSですか?

次に、隣接するタグの距離のような問題がありますは同じです!

それ以外の場合は、後でRegExを使用できます。試してみる価値はあります。

しかし、最初のものを行い、結果を共有してください! :)