pandas

0熱

1答えて

多くの欠損値とより多くのカテゴリ値を持つデータセットのジェンダー分類子に取り組んでいます。カテゴリ値を数値に変換する方法より正確な精度を得るには？ https://github.com/lakshmipriya04/py-sample/

-1熱

1答えて

欠落しているデータをcsvから作成したデータフレームがありますか？シンボル。どのくらいの行があるかをチェックしたいですか？発生回数とともに発生する。これまでのところ、私はこれを作ったが、それはすべての行の数を示しているだけでなく、発生する。 print(sum([True for idx,row in df.iterrows() if any(row.str.contains('[?]'))]

0熱

1答えて

パンダの確率的関数で値を代入する

カテゴリ値の値に基づいて4番目の値（2つのタイプの1つのバディ）を割り当てようとしています。 3つの機能のためにランダムに割り当てられた値を持つ小さなDF：カテゴリ、年齢、性別 Unique_ID Category Age Sex Buddy 0 0 2 11 male NaN 1 1 3 7 female NaN 2 2 1 4 male N

1熱

1答えて

Pythonの中央値線形回帰

絶対誤差の中央値を最小にすることによって1次元線形回帰を実行したいと思います。最初はかなり標準的な使用例であると仮定していましたが、すばやく検索すると、すべての回帰関数と補間関数が平均二乗誤差を使用することがわかりました。私の質問：1次元の線形回帰に基づくメジアン誤差を実行できる関数はありますか？

3熱

4答えて

カウントダウンとパーセンテージを持つカテゴリ変数のPandas DataFrameをMultiIndexに変換

私はいくつかのカテゴリ変数を含むPandas DataFrameを持っています。たとえば： import pandas as pd d = {'grade':['A','B','C','A','B'], 'year':['2013','2013','2013','2012','2012']} df = pd.DataFrame(d) 私は、次のプロパティを持つマルチインデック

1熱

2答えて

パンダ - の数量を乗じたget_dummiesは

私は、自社コードとpandas.DataFrameと量を持っている：私は、数量を乗じたpandas.get_dummies()を取得するための解決策を探しています >>>df StockCode Quantity 0 85123A 6 1 71053 6 2 84406B 8 3 84029G 6 4 84029E 6 。私は期待していた出力は、次のようになりま

2熱

1答えて

Pandasのデータフレームの一覧上の反復実行のパフォーマンスは大きく変わります

コンテキスト：私は株式取引戦略のバックテスターを構築しています。 OHLCVデータを含む2446個のCSVがあります。各CSVはデータの1取引日です。また、パフォーマンスが懸念された後、これらのファイルを約140万行の単一のCSVに連結しました。それについては後で詳しく説明します。開発の初期段階では、各ファイルをpd.read_csvで1つずつ読み込み、各データフレームをリストに追加していました

0熱

2答えて

マルチインデックス行をスライスする - 'ラベルインデックスを作成できません'

私は2レベルのマルチインデックス行を持つデータフレームを持っています。 <class 'pandas.tseries.index.DatetimeIndex'>と<class 'pandas.indexes.numeric.Int64Index'> px_settlement contract_code assessment_date contract_serial

0熱

1答えて

パンダ：大規模なデータセットのデータ間の関係を見つける

私はデータ科学に新しいので、データ間の関係を探求したいと思います。556784 X 60行と列を含む非常に大きなデータセットがあります。ニューラルネットワークに供給するために無視する必要のない変数がいくつかあります。線形回帰& &複数の回帰を使用すると、XlabelとYlabelの関係を見つけるのに役立ちます。しかし、このような巨大なデータセットで回帰法を実行することは本当に役に立ちますか？また