私はいくつかのデータを処理するためのApache PIGを使用していますし、私のスクリプトの終わりに私は私がパンダにread_csv(headers=0)
で読めるtsv
ファイルを持っている方法PigからPandasにCSV/TSVファイルをロード/エクスポートする方法は?
store data into '/mypath/tempp2' using PigStorage('\t','-schema');
fs -getmerge /mypath/tempp2 /localpath/data.tsv;
を使用しています。最初の仮定
col1 col2 col3
{pigschema}0 1 2
:
問題はtsv
ファイルは現在(いいです)1行目のヘッダだけでなくなどの2行目の最初の観測に連結スキーマが含まれていることです行は[0,1,2]
です。だからread_csv
(その行を失う)でskiprows=1
を使用しない限り、私は私のデータでこの奇妙な観測を取得します。
ヘッダーを取得しているうちに、データをエクスポートするより良い方法があるのだろうかと思います。
多くの感謝!あなたが-getmerge
ため-nl
パラメータを使用するすべての
は役に立つかもしれます。http:// stackoverflowの.com/questions/13696036/export-from-pig-to-csv –
ありがとう!リンクがかなり古くなっているので、今より良い解決策があることを願っています –
また、私はパンダにロードして正しいヘッダを得ることができる限り、フォーマット(CSVまたは他のJSON)を気にしません –