0
アラビア語のテキストにStringToWordVector
フィルタを使用しようとしています。英語の文字と数字、および「私のデータはつぶやきです」という絵文字を削除します。アラビア語の言葉だけを保つ。 誰でもStringToWordVector
フィルタでこれを行う方法を知っていますか? 私はWekaライブラリでjavaを使用しています。StringToWordVectorフィルタを使用してアラビア語のテキストから英語の文字を削除する方法
ありがとう:試みる緩んでいる
「顔文字」の定義が、あまりにもそれらを削除するには:
は、(英語が使用しています)ラテン文字と数字を削除するには私はこれを試してみるつもりですが、タイプ "インスタンス"からのクリーニング後にトレーニングデータセットで分類器を構築しなければならないので、どうすればいいですか? –