2016-05-25 11 views
2

アラビア語の文字を含むすべての行を見つける方法はありますか?BigQueryアラビア語の文字を検索

私は大量のデータセットを持っており、アラビア語の名前をすべて取得し、テキストファイルをデータセットの残りの部分と別に扱いたいと考えています。

私が読んだ唯一の可能性は、すべてのアラビア語文字を含む表をアップロードし、何らかの形でJOIN/matchを行うことです。しかし、私はアラビア語の知識が不足しているので、これを避けたいと思います。

+0

で、私のようにエレガントではないソリューションはalphanumberic文字にregexですることですが、を実装する必要がありますが、下記の楽しみ、どんなロジックに適用されますホープそれは本当に同じことではありません。 –

答えて

4

あなたは

SELECT 
    v, 
    IFNULL(REGEXP_EXTRACT(v, r'([\p{Cyrillic}]+)'), '') AS russian, 
    IFNULL(REGEXP_EXTRACT(v, r'([\p{Arabic}]+)'), '') AS arabic, 
    IFNULL(REGEXP_EXTRACT(v, r'([\p{Hebrew}]+)'), '') AS hebrew 
FROM 
    (SELECT '12 - Table - Таблица' AS v), 
    (SELECT '23 - Table - الطاولة' AS v), 
    (SELECT '34 - Table - שולחן' AS v) 

結果は、一方で

v      russian  arabic  hebrew 
12 - Table - Таблица Таблица   
23 - Table - الطاولة    الطاولة  
34 - Table - שולחן        שולחן  
+0

これはすばらしいです!!!!!! –

+0

小ロット(ロシア語とヘブライ語のネイティブスピーカー):ヘブライ語への "Таблица"の正しい翻訳は "טַבלָה"です。単語 "שולחן"は "стол"を意味します:) –

+0

:o)私はこの例を書いたとき、私はテーブルをстолとして使うことを意味しました。しかし、どういうわけかтаблицаで終わった - それでもクールな速いエクササイズだった:o) –

関連する問題