を使ってPythonでExcelデータをクリーンアップ私はクリーンアップに私のデータをしようとしていますが、私は私のリーグから抜け出す方法です。私はpd.read_excel</p> <p>を使ってパンダとのPythonにXLSファイルを読んでいるパンダパッケージ
すべてのレコードの間に空白行があります。例の写真では、4行目、9行目、11行目が優れています。
この例では、コメント列があり、「col_F」と表示されています。すべてのレコードには、テキストを含む少なくとも1つのセルがあります。このxlsファイルを作成した人は、長いコメントを複数のセルに分割します。
特定のレコードのcol_F内のすべてのデータを1つのセルに連結したいと思います。
col_Fを正しく連結する方法を見つけたら、ブランクレコードをトリムします。私はPythonのバージョン3.5.0を使用しています
、ここでnumpyの1.12.0と0.19.2時点パンダ
は、私がこれまで持っているものです。
import numpy as np
import pandas as pd
data = pd.read_excel("C:/blah/blahblah/file.xls", header=0, nrows=10000)
df = pd.DataFrame(data)
私はどんな提案や洞察力に感謝します!
ありがとう!
: 私は、Pythonにロード時にこれが私のデータがどのように見えるかですこれは私の望ましい結果は次のようになります。
ヒント:.apply)(ffill、あなたのDFをロードnp.nan、dropna( 'すべて' 軸= 1)で空白を置き換える、GROUPBY(EへのCOL A)( reset_index() – Boud
また、Excelシートをダウンロードするためのリンクを添付することもできますか? – titipata
私は最初の質問のあいまいさを軽減するために質問を更新しました。 – Tommy