pandas

    1

    1答えて

    2つ以上のラインアイテムからなる複数の「レコード」を持つ大きなパンダのデータフレームがあります。私は、マルチプロセッシングを使って各レコードに対してCPU集約的な計算を効率的に実行しようとしています。ここでは単に各レコードに乱数を追加する機能を備えた簡単な例です: import pandas as pd from random import randrange from multiproces

    3

    1答えて

    私のコードでは、2つのExcelデータベースを1つにまとめることができます。問題は、それが私に収益の列のみを表示し、列の表示は表示しないことです。より明確にするために、コードとサンプルを残します。私は試してみました: df1 = df1.pivot(index = "Cliente", columns='Fecha', values=['Impresiones','Revenue']) しかし

    1

    1答えて

    customer gender customer_ids 1 0 [1,2,3] 2 1 [6,2,1] 3 0 [4,3,9] 私は上記のようにcsvファイルにいくつかのデータを持っています。私は、これは、この"['1','2','3']", ... のような文字列としてcustomer_idsをロードします。しかし、あなたのデータにロードして

    0

    1答えて

    私は、サンプルのデータフレーム「DF: df = pd.DataFrame({'Year': [2000, 2002, 2003, 2004] + [1998, 1999, 2003, 2004], 'Name': ['A'] * 4 + ['B'] * 4, 'Value': [4, 1, 1, 3] + [34, 23, 22, 11]}) どのように私

    0

    1答えて

    異なる2つのデータフレームを追加し、データフレーム、データフレームB、およびデータフレームC言います。 (a.ilocの: DATAFRAMEこのようなPythonコード内で定義されている[:0] = 0は、算術演算を可能にするために与えられ、すなわち、 "NaNに" を置き換えます"ゼロ") データフレームBとデータフレームCとは次のようにExcelシートから呼び出されています。 b=pd.re

    1

    1答えて

    データフレームdf1とdf2の両方に列["Ticker"、 "Adj.Factor"、 "Date"]があります。 df1のその行の "Adj.Factor"の値が0に等しい場合、df1からの完全な行をdf2に追加します。 私は次のコードを持っています。 for x in range(tot_len): if df1.iloc[x]['Adj.Factor'] == 0: d

    2

    3答えて

    私はif x in y文を実行するとValueErrorをスローするパンダで実行している小さな関数を持っています。ブーリアンインデックス、.isin()、およびwhere()を推奨する同様の問題が発生しましたが、いずれの例も私の場合には適用できませんでした。どんなアドバイスも非常に高く評価されます。 その他の注意:groupsは、データフレーム外の文字列を含むリストです。この関数の私の目標は、デー

    2

    1答えて

    私は2つの異なる種類の列が属性と質問のfield列に積み重ねられたテーブルを持っています。 +-------+------------+-------+ | id | field | value | +-------+------------+-------+ | 52394 | gender | M | | 52394 | age | 24 | | 52394 | questio

    0

    1答えて

    一般的に使用されるPandas DataFrameの列命名規則はありますか?ここではPEP8が推奨されています(インスタンス変数など)? 多くのデータが外部ソースからヘッダーで読み込まれますが、独自の名前を付けたり名前を変更したりするときには、正しいアプローチは何か不思議です。

    0

    1答えて

    インデックスが0から30のpandasデータフレームの例を挙げます。私はいくつかの範囲のインデックス、[0:5]、[10:15]および[20:25]内の行を選択したいと思います。 どうすればよいですか?