私はそこにテーブルがあるpdfを持っていて、そのテーブルをPandasに取得しようとしています。 pdfテーブルを抽出することは悪名高くも困難なことですが、タブラが最もうまく機能することが分かりました。まだまだ完璧ではありませんが、私が見たことは遠く離れています。私は、このPDFのテーブルがあります。Pandasの名前のない列の名前を変更する方法は?
注テーブルのヘッダを、そしてどのように彼らは時々、次の行に実行し、一般的に素敵ではありません。私が見ることができるすべてのソリューションは、最初にデータフレームを作成するためのより良いアプローチを求めているので、私は本当の問題に先んじています。このデータフレームは私が得ることができる最高のものですが、あなたがタブラからより良いものを得る方法を知っていれば、私に教えてください。
私はタブラ-PYを使用して、このコードを実行します。
holdingsDF = tbla.read_pdf(fileName, nospreadsheet=True)
そこに多くのオプションがあり、私はそれらのすべてを認識していないけど、これはいじった後、私ができる最善のようですオプション付き。そして得られたDFはこれです:
Unnamed: 0 Unnamed: 1 Unnamed: 2 Identifier Unnamed: 4 Curren Unnamed: 6 TAG0 Strategy
0 Asset Type Name Identifier NaN Quantity NaN Price NaN
1 NaN NaN NaN Type NaN cy NaN Name
2 Equity Akamai Technologies Inc AKAM US Equity TICKER (5,830) USD 65.000 AKAM
3 Convertible Bond AKAM 0 02/15/19 US00971TAG67 ISIN 1,595,000 USD 100.875 AKAM
4 Equity Advanced Micro Devices Inc AMD US Equity TICKER (181,500) USD 13.490 AMD
5 Convertible Bond AMD 2 1/8 09/01/26 US007903BD80 ISIN 1,650,000 USD 185.500 AMD
あなたが見れば、あなたはヘッダを見ることができますが、ソートの最初の3行の間で分割されました。これをどうやって解決するのですか?各列の3つの名前のうちの「最高」を取るための巧妙で洗練されたソリューションがありますか?それを列名にしますか?
ありがとうございます!
すべての列名を入力するだけで、プログラム的な解決策を検討するよりも高速になる場合があります。 – Psidom