Google Dataprepでログファイルのエンコーディングを処理できないのはなぜですか？

毎月大きなログファイルを受信しています。 Google BigQueryに読み込む前に、fixed withからdelimitedに変換する必要があります。私はGoogle Dataprepでそれを行う方法について良いarticleを見つけました。しかし、エンコーディングに何か問題があるようです。Google Dataprepでログファイルのエンコーディングを処理できないのはなぜですか？

スウェーデン語の文字がログファイルに表示されるたびに、分割機能が別のスペースを追加するように見えます。これは添付のスクリーンショットに見られるように、残りの列を駄目にします。

ログファイルの正しいエンコーディングを判断できませんが、ポーランドのかなり古いWindowsサーバーによって作成されていることがわかります。

どのようにこの課題を解決するためのアドバイスができますか？

Screenshot of the issue in Google Dataprep.

出典

2017-12-10 Jon S

何私たちは、あなたが使用している正確なレシピ？あなたは（xごとに分割する）を使いますか？テストケースでISO Latin1テキストを使用し、ISO 8859-1として取り込んだとき、出力が期待どおりになり、ディスプレイのみがオフになった同じことを試すことができますか？サンプル入力ファイルを1行または2行で共有することは可能でしょうか？あなたが動作するはず正規表現を使用することができます回避策として

出典

2017-12-11 16:46:35

上の分割後の最初の2つの分割のための例ですおかげで、セバスチャン！ここには[サンプルファイル]（https://www.enhanza.com/wp-content/uploads/2017/12/sample-file.txt）があります。私はそれを開いてSublime Textに保存した後、同じエンコーディングを保持していることを希望します。 10,20,21,27,33,37,46,54,71,81,87,89,97,103,111,117,122,129,136,137,139,149,151,161,163,173,181,191,201,211,221,231,232,235,236,237,238,248,258,268,271,281,282,292,302,308,343,347,350： Iは、下記の「位置の配列」（ファイル幅を固定している）での形質転換、「スプリット」を使用します。 –

こんにちはJon、私はそれを複製することができました。この問題（バイトベースのスプリットではなく、文字ベースのスプリット）に問題があり、次のメジャーリリースアップデートになります –

ありがとう、Sebastian！このメジャーリリースがいつ予定されているかを知りませんか？ –

。残念ながらもう少し複雑です。なぜなら、複数の正規表現分割を使用する必要があるからです。ここで10文字ずつ/.{10}/と//

出典

2017-12-18 18:14:07

セバスチャンを過ごしてくれてありがとう。それは（あなたが述べたように）Googleの既知の問題であり、次のメジャーリリースで対処される予定なので、私はそれを待つことにしました。それでも、本当に助けてくれた！ –

Google Dataprepでログファイルのエンコーディングを処理できないのはなぜですか？

答えて

関連する問題