毎月大きなログファイルを受信しています。 Google BigQueryに読み込む前に、fixed withからdelimitedに変換する必要があります。私はGoogle Dataprepでそれを行う方法について良いarticleを見つけました。しかし、エンコーディングに何か問題があるようです。Google Dataprepでログファイルのエンコーディングを処理できないのはなぜですか?
スウェーデン語の文字がログファイルに表示されるたびに、分割機能が別のスペースを追加するように見えます。これは添付のスクリーンショットに見られるように、残りの列を駄目にします。
ログファイルの正しいエンコーディングを判断できませんが、ポーランドのかなり古いWindowsサーバーによって作成されていることがわかります。
どのようにこの課題を解決するためのアドバイスができますか?
Screenshot of the issue in Google Dataprep.
上の分割後の最初の2つの分割のための例ですおかげで、セバスチャン!ここには[サンプルファイル](https://www.enhanza.com/wp-content/uploads/2017/12/sample-file.txt)があります。私はそれを開いてSublime Textに保存した後、同じエンコーディングを保持していることを希望します。 10,20,21,27,33,37,46,54,71,81,87,89,97,103,111,117,122,129,136,137,139,149,151,161,163,173,181,191,201,211,221,231,232,235,236,237,238,248,258,268,271,281,282,292,302,308,343,347,350: Iは、下記の「位置の配列」(ファイル幅を固定している)での形質転換、「スプリット」を使用します。 –
こんにちはJon、私はそれを複製することができました。この問題(バイトベースのスプリットではなく、文字ベースのスプリット)に問題があり、次のメジャーリリースアップデートになります –
ありがとう、Sebastian!このメジャーリリースがいつ予定されているかを知りませんか? –