csvの書式を混在させた4GBのtxtファイルを操作しようとしています。データには区切り文字 '"'で定義されている約38個の '列'があります(例を次に示します)。データはフィールド区切り記号としてカンマを使用してエクスポートされましたが、データとのインラインでほとんどのプラットフォームにインポートできません。私はawk/sed/catを使ってデータを修正できると信じています。データの各列は引用符を使って定義することができます。すべてのコンマがピリオドなどで置き換えられた2組の引用符内にあるものコンマを含むセクションは、列の中央にあり、データセット内の最後のフィールドではありません。カンマでawkを使って、sedを使って置き換えてからcatを使ってファイルに貼り付けてください。awkを使用して区切り文字を可変テキストで区切って区切り文字を区切ります。
実際のデータは機密データであり、共有することはできませんが、以下の例は類似しています。
データサンプル:
"identifier","Status","Name","City","Application","Job","Details","column 39"
"red","paid","Dave","Philadelphia","55823","Cashier","No commas in this comment","spare1"
"rojo","past due","Steve","San Francisco","78434","trainer","Does not like sushi, beer, or ham","spare2"
"verde","pending","Duncan","Columbus","65478","CEO","Late for work, on the fifth","spare3"
所望の結果はコンマを変更するに焦点を当て、および「コラム39」の後に、インラインまたは終わりにデータを追加して
"identifier","Status","Name","City","Application","Job","Details","column 39"
"red","paid","Dave","Philadelphia","55823","Cashier","No commas in this comment","spare1"
"rojo","past due","Steve","San Francisco","78434","trainer","Does not like sushi. beer. or ham","spare2"
"verde","pending","Duncan","Columbus","65478","CEO","Late for work. on the fifth","spare3"
任意の提案は大歓迎です!
Pl簡単に、期待される出力と厄介なデータの2行を投稿してください。私たちはテストケースを自分たちで作るのは好きではありません。 –
@JamesBrownはコンテンツが不足していることを謝り、数行の例を追加しました。 –