2017-05-20 8 views
1

文字列を取得するためのPythonプログラムを作成しました。たとえば、文字列に画像があります。たとえば、 "Siempre endíade la Madre lapasábamosas 'todos en familiaあなたと他の人との間には、あなたが他の人と共有し合うことができます。Pythonの文字列の画像を削除する文字と数字のみを取得する

文字列からこれらの画像を削除し、数字と文字のみを取得したいと考えています。

注意:これらの文字列は英語で書かれているだけでなく、すべての種類の言語(アラビア語、日本語など)で書かれている可能性があります。

私のプログラム:

for post_item in group_member_posts_list: 
     if post_item['post_content']: 
      post_item_content_str = post_item['post_content'] 
      print("post_item_content_str:" + post_item_content_str) 
      post_item_content_str = filter(str.isalnum,post_item_content_str) 
      print("after filter post_item_content_str:" + post_item_content_str) 
      b = TextBlob(post_item_content_str) 
      post_item_content_type = b.detect_language() 

私はフィルタ機能を使用しようとしましたが、それはエラーが発生します。そして、isalnum関数は英語の文字しか見つけることができません。

この問題の解決方法を教えてください。

答えて

1

イメージではemojis()を意味していると思いますが、re.subを使用して文字列から置き換えることができます。

import re 
emoji_finder = re.compile('[\U0001F300-\U0001F64F\U0001F680-\U0001F6FF\u2600-\u26FF\u2700-\u27BF]+') 

tcase_1 = "Siempre en día de la Madre la pasábamos así todos en familia dando mucho cariño a nuestra preciosa madre pero hoy la vamos a pasar solos extrañando a mamá pero siempre llevándola en nuestros corazones❤" 

tcase_2 = "between" 

print(re.sub(emoji_finder, "", tcase_1)) 
print(re.sub(emoji_finder, "", tcase_2)) 

出力:ここ

Siempre en día de la Madre la pasábamos así 
todos en familia dando mucho cariño a nuestra 
preciosa madre pero hoy la vamos a pasar 
solos extrañando a mamá pero siempre 
llevándola en nuestros corazones 

# and 

between 

はテストにそれを:https://repl.it/IIWG

このpostから適応とPython 3

をサポートするように変更
関連する問題