ハスケルの文字列からすべての絵文字を削除します

私はマストドン/ Twitterを作りました< - > IRC botそれはうまくいっていますが、誰かがmastodon（これはいくつかのユーザー名で多く発生すると思われる）でemojisを使用すると、端末が壊れてしまうという不満があります。ハスケルの文字列からすべての絵文字を削除します

IRCに送信する前にバイト文字列からそれらを削除する方法があれば、私はこの発見ビットグーグル、（または少なくともそうするオプションを提供）思っていた：removing emojis from a string in Python

がどのように見えるの\ U0001F600- \ U0001F64Fは正しく理解できれば絵文字の範囲でなければなりませんが、正規表現では一度も大きかったことはありません。それをハスケルに翻訳する簡単な方法はありますか？私は正規表現で少し読んでみましたが、試してみると "文字列の文字エラー"（文字 'U'）でしか得られませんが、私はその構文がPythonのものでなければならないと仮定します。

おかげ

出典

2017-09-23 Ulrar

ない絵文字やUnicodeの専門家が、これが動作しているようです：ダニエル・ワグナーが指摘するように

isEmoji :: Char -> Bool 
isEmoji c = let uc = fromEnum c 
      in uc >= 0x1F600 && uc <= 0x1F64F 

str = "wew"

、これはさらに良く行うことができます。

isEmoji :: Char -> Bool 
isEmoji c = c >= '\x1F600' && c <= '\x1F64F'

デモghci：

λ> str 
"\128513wew\128513" 
λ> filter isEmoji str 
"\128513\128513" 
λ> filter (not . isEmoji) str 
"wew"

説明：fromEnum関数は、Unicodeによって定義された対応するInt値に文字を変換します。私は、実際に絵文字であるかどうかを判断するために、関数内のユニコード範囲の絵文字をチェックします。ここ

putStrLn "\x1f600" --

、\xでのプレフィックスではない：

出典

2017-09-23 15:21:57 Sibi

が見えます！ありがとう、実際には私が予想していたよりもずっと簡単です。単純な> = <= .. – Ulrar

'fromEnum'は必要ありません。isEmoji c = c> = '\ x1f600' && c <= '\ x1f64f''です。 –

範囲は0x1f000..0x1f9ffです：http://unicode.org/emoji/charts/full-emoji-list.html – Artem

のUnicode文字は8進数の16進のための任意x、o続く文字[0]を10進数のいずれも、単一のバックスラッシュによって表されていますUnicodeの最初の絵文字の16進表現です。

これで、正規表現を使って絵文字を削除することもできますし、単に行うことができます：

emojis = concat [['\x1f600'..'\x1F64F'], 
       ['\x1f300'..'\x1f5ff'], 
       ['\x1f680'..'\x1f6ff'], 
       ['\x1f1e0'..'\x1f1ff']] 
someString = "hello " 
removeEmojis = filter (`notElem` emojis) 

putStrLn . removeEmojis $ someString -- "hello "

それは素晴らしい作品のように[0] Haskell Language 2010: Lexical Structure#Character and String Literals

出典

2017-09-23 15:28:39

ありがとうございます！私は他の答えと一緒に行きました。なぜなら、それはより軽いと思いますが、どちらも私が探していたものを達成する – Ulrar

ハスケルの文字列からすべての絵文字を削除します

答えて

関連する問題