Weka POSタギング+トークン化

私はWekaを初めて利用しています。私は感傷的な映画のレビューを分類しようとしています。つまり、単語の出現をトークン化して属性付けするStringToWord Vectorを理解できます。パーツオブパーツタグを属性ボキャブラリにも追加したいのですが、どのように悩んでいますか？Weka POSタギング+トークン化

誰もこれを前に試しましたか？

教えてください。

P.S。私はPOSタグ付けのためにOpenNLPを使用しており、Weka J48分類器を使用しています！

出典

2016-06-28 Harish Gontu

テキストファイルをアップロードしてからWekaでトークン化しましたか？ –

うん、やったよ。私はTextDirectoryLoaderクラスを使用して、インスタンスのデータとStringToWordVectorまたはトークンでデータにアクセスしました。今、トークン化された属性ごとにPOSタグを追加する方法を理解できません。私は自分自身で単語の出現を数えてみましたが、自分でARFFファイルを作成しましたが、エラーIOExceptionが早すぎます... –

試行錯誤のアプローチ：

テキストファイルにPOStaggedデータを書き込み、その後、word2vecを行うような何かを。次に、単語とPOSタグの間の距離をチェックします。最も近いものはPOSですか？

次に、隣接するタグの距離のような問題がありますは同じです！

それ以外の場合は、後でRegExを使用できます。試してみる価値はあります。

しかし、最初のものを行い、結果を共有してください！ :)

出典

2016-07-15 00:51:21 Nuwanda

Weka POSタギング+トークン化

答えて

関連する問題