アラビア語の文字を含むすべての行を見つける方法はありますか?BigQueryアラビア語の文字を検索
私は大量のデータセットを持っており、アラビア語の名前をすべて取得し、テキストファイルをデータセットの残りの部分と別に扱いたいと考えています。
私が読んだ唯一の可能性は、すべてのアラビア語文字を含む表をアップロードし、何らかの形でJOIN/matchを行うことです。しかし、私はアラビア語の知識が不足しているので、これを避けたいと思います。
アラビア語の文字を含むすべての行を見つける方法はありますか?BigQueryアラビア語の文字を検索
私は大量のデータセットを持っており、アラビア語の名前をすべて取得し、テキストファイルをデータセットの残りの部分と別に扱いたいと考えています。
私が読んだ唯一の可能性は、すべてのアラビア語文字を含む表をアップロードし、何らかの形でJOIN/matchを行うことです。しかし、私はアラビア語の知識が不足しているので、これを避けたいと思います。
あなたは
SELECT
v,
IFNULL(REGEXP_EXTRACT(v, r'([\p{Cyrillic}]+)'), '') AS russian,
IFNULL(REGEXP_EXTRACT(v, r'([\p{Arabic}]+)'), '') AS arabic,
IFNULL(REGEXP_EXTRACT(v, r'([\p{Hebrew}]+)'), '') AS hebrew
FROM
(SELECT '12 - Table - Таблица' AS v),
(SELECT '23 - Table - الطاولة' AS v),
(SELECT '34 - Table - שולחן' AS v)
結果は、一方で
v russian arabic hebrew
12 - Table - Таблица Таблица
23 - Table - الطاولة الطاولة
34 - Table - שולחן שולחן
これはすばらしいです!!!!!! –
小ロット(ロシア語とヘブライ語のネイティブスピーカー):ヘブライ語への "Таблица"の正しい翻訳は "טַבלָה"です。単語 "שולחן"は "стол"を意味します:) –
:o)私はこの例を書いたとき、私はテーブルをстолとして使うことを意味しました。しかし、どういうわけかтаблицаで終わった - それでもクールな速いエクササイズだった:o) –
で、私のようにエレガントではないソリューションはalphanumberic文字にregexですることですが、を実装する必要がありますが、下記の楽しみ、どんなロジックに適用されますホープそれは本当に同じことではありません。 –