目的
ユニコードの単語リストから考えられるすべての顔文字を抽出しようとしています。 私はanacondaインストールでPython3を使用しているため、emoji.py
のようなパッケージは使用できません。すべての可能な絵文字をPythonリストから抽出します
単語リストのサンプルです。
[w for w in lst if len(w) != len(w.encode())]
しかし、これは与えていません。すべての文字がASCIIかどうかを確認するために
out = ['✅','⏱', '⏱','']
試み1
リスト内包表記:出力は次のようである期待
lst = ['✅','türkçe','Çile','ısp','İst','ğ','some','#','@','@one','#thing','','1','41','ç','ö','⏱','⏱','','₺','€',':)',':/']
テキストにASCII以外の文字があるため、望ましい出力。また、通貨記号は顔文字ではありません。 NTLKの顔文字に正規表現
from nltk.tokenize.casual import EMOTICON_RE
EMOTICON_RE.findall(' '.join(lst))
を使用して
['✅', 'türkçe', 'Çile', 'ısp', 'İst', 'ğ', 'ç', 'ö', '⏱', '⏱', '', '₺', '€']
試み2
しかし、EMOTICON_RE
は、このような:)
:/
:(
としての表現を抽出することができますここで私は午前何のリストです考えているのはemoticonsです。
自分の単語がそのリストに存在するかどうかを確認するために、絵文字のリストを作成しようとしましたが、ユニコード文字コードから絵文字のリストを作成できませんでした。
お願いしますか?
*私はアナコンダインストールでPython3を使用しています。したがって、私はemoji.py *のようなパッケージを使うことはできません。なぜなら、何があなたを止めているのですか? –
conda indexに存在しません – moth
https://conda.io/docs/user-guide/tasks/manage-pkgs.html#installing-non-conda-packagesの指示が機能しません。 –