2017-04-13 5 views
0

アラビア語のテキストにStringToWordVectorフィルタを使用しようとしています。英語の文字と数字、および「私のデータはつぶやきです」という絵文字を削除します。アラビア語の言葉だけを保つ。 誰でもStringToWordVectorフィルタでこれを行う方法を知っていますか? 私はWekaライブラリでjavaを使用しています。StringToWordVectorフィルタを使用してアラビア語のテキストから英語の文字を削除する方法

答えて

0

Javaを使用しているので、単純な文字列操作を使用して簡単にしてください。 、あなたの応答のための

String cleaned = input.replaceAll("[a-zA-Z0-9]|[:;]-?[()ODp]", ""); 
+0

ありがとう:試みる緩んでいる

String cleaned = input.replaceAll("[a-zA-Z0-9]", ""); 

「顔文字」の定義が、あまりにもそれらを削除するには:

は、(英語が使用しています)ラテン文字と数字を削除するには私はこれを試してみるつもりですが、タイプ "インスタンス"からのクリーニング後にトレーニングデータセットで分類器を構築しなければならないので、どうすればいいですか? –

関連する問題