pandas

1熱

1答えて

2つ以上のラインアイテムからなる複数の「レコード」を持つ大きなパンダのデータフレームがあります。私は、マルチプロセッシングを使って各レコードに対してCPU集約的な計算を効率的に実行しようとしています。ここでは単に各レコードに乱数を追加する機能を備えた簡単な例です： import pandas as pd from random import randrange from multiproces

3熱

1答えて

複数の値をとり、Python Pandasでテーブルを作成する

私のコードでは、2つのExcelデータベースを1つにまとめることができます。問題は、それが私に収益の列のみを表示し、列の表示は表示しないことです。より明確にするために、コードとサンプルを残します。私は試してみました： df1 = df1.pivot(index = "Cliente", columns='Fecha', values=['Impresiones','Revenue']) しかし

1熱

1答えて

パンダ：リストとしてCSVファイルをロードする

customer gender customer_ids 1 0 [1,2,3] 2 1 [6,2,1] 3 0 [4,3,9] 私は上記のようにcsvファイルにいくつかのデータを持っています。私は、これは、この"['1','2','3']", ... のような文字列としてcustomer_idsをロードします。しかし、あなたのデータにロードして

0熱

1答えて

複数のIDの時系列データフレームで前年のみを考慮するpct_change（）を実行しますか？

私は、サンプルのデータフレーム「DF： df = pd.DataFrame({'Year': [2000, 2002, 2003, 2004] + [1998, 1999, 2003, 2004], 'Name': ['A'] * 4 + ['B'] * 4, 'Value': [4, 1, 1, 3] + [34, 23, 22, 11]}) どのように私

0熱

1答えて

Pythonのパンダ：私は別のデータフレームを合計しようとしています

異なる2つのデータフレームを追加し、データフレーム、データフレームB、およびデータフレームC言います。（a.ilocの： DATAFRAMEこのようなPythonコード内で定義されている[：0] = 0は、算術演算を可能にするために与えられ、すなわち、 "NaNに" を置き換えます"ゼロ"）データフレームBとデータフレームCとは次のようにExcelシートから呼び出されています。 b=pd.re

1熱

1答えて

別のデータフレームに行を追加する方法

データフレームdf1とdf2の両方に列["Ticker"、 "Adj.Factor"、 "Date"]があります。 df1のその行の "Adj.Factor"の値が0に等しい場合、df1からの完全な行をdf2に追加します。私は次のコードを持っています。 for x in range(tot_len): if df1.iloc[x]['Adj.Factor'] == 0: d

2熱

3答えて

パンダ：ループを反復する代替手段

私はif x in y文を実行するとValueErrorをスローするパンダで実行している小さな関数を持っています。ブーリアンインデックス、.isin()、およびwhere()を推奨する同様の問題が発生しましたが、いずれの例も私の場合には適用できませんでした。どんなアドバイスも非常に高く評価されます。その他の注意：groupsは、データフレーム外の文字列を含むリストです。この関数の私の目標は、デー

2熱

1答えて

パンダ - 唯一のピボット選択行

私は2つの異なる種類の列が属性と質問のfield列に積み重ねられたテーブルを持っています。 +-------+------------+-------+ | id | field | value | +-------+------------+-------+ | 52394 | gender | M | | 52394 | age | 24 | | 52394 | questio

0熱

1答えて

Pandas DataFrameの列の命名規則

一般的に使用されるPandas DataFrameの列命名規則はありますか？ここではPEP8が推奨されています（インスタンス変数など）？多くのデータが外部ソースからヘッダーで読み込まれますが、独自の名前を付けたり名前を変更したりするときには、正しいアプローチは何か不思議です。

0熱

1答えて

パンダのデータフレームで複数の行を選択する方法

インデックスが0から30のpandasデータフレームの例を挙げます。私はいくつかの範囲のインデックス、[0:5]、[10:15]および[20:25]内の行を選択したいと思います。どうすればよいですか？