pandas

0熱

1答えて

私は2つのcsvを持っていますが、1列の値で行を照合することができます（この列を微調整した後）。マッチングの後、私はそれらの両方からいくつかの値を取って新しい組み合わせの行を作りたいと思う。私はそれらの両方のためcsv.DictReaderを使用して簡単なスクリプトを考え、次にダブル for row1 in csv1: for row2 in csv2: if row1['someID

1熱

2答えて

一致する文字列が得られません

これは数字と文字列を含む私のデータです。 df2 = pd.DataFrame({'A': ['1,008$','4,000$','6,000$','10,00$','8,00$','45€','45€']}) df2 = pd.DataFrame(df2, columns = ['A']) vv=df2[df2['A'].str.match('$')] このような出力が必要です。 0 1

0熱

1答えて

PysparkとPandasは連携して動作することを認証されていますか？

私はPysparkデータフレームを既存のPandasコードに統合/追加する際に多くの問題に直面しています。 1）PandasデータフレームをPysparkデータフレームに変換すると、PysparkデータフレームがPandasデータフレームほど豊かではないように見えるため、複数の操作がうまく変換されません。 2）PysparkデータフレームとPandasを使用して同じコード内の異なるデータセットを処

1熱

1答えて

pandas.read_excelパラメータ "sheet_name"が機能しない

the docによると、pandas.read_excelには、どのシートが読み取られるかを指定できるパラメータsheet_nameがあります。しかし、2番目のシートをExcelファイルから読み取ろうとすると、パラメータ（sheet_name = 1、sheet_name = 'Sheet2'）を設定しても、データフレームは常に最初のシートを表示し、インデックスのリストを渡すと（sheet_nam

1熱

1答えて

Pandas for Python3が動作しません

私は自分のシステムにpython 2 & 3をインストールしました。私はUbuntuを使用しています。また、Spyder IDEを使用します。私はpython3でPandasのバージョンをアップグレードしようとしていますが、Python3でpandasをアップグレードすることはできません。現在、そのパンダ0.17.1 は、私は次のことを試してみました： pip install --upgrade

0熱

1答えて

は、私は電車に保存されている機能の分散を計算し、テストの後を提出したいパンダ

の各列の分散行き方：そのため col1 Feature0 Feature1 Feature2 Feature3 Feature4 Feature5 Feature6 Feature7 Feature8 Feature9 col2 26658 40253.5 3.22115e+09 0.0277727 5.95939 266.56 734.248 307.364 0.000566779

0熱

1答えて

整形パンダのデータフレームの出力

ように私はdatafram dfを持っている：私は出力を生成したい task_count task date 0 82586 foo 2015-10-31 1 57417 foo 2016-08-31 2 47800 bar 2016-12-31 3 62331 foo 2016-02-29 4 45852 bar 2017-07-31 として：今のところ、これは

0熱

1答えて

パンダは別の列

から条件付き外れ値を取得します。私は2つの列を持つデータフレームを持っています。手動5速（ 'Transmission'列にある1つのタイプのトランスミッション）には異常値があります。分数値を使って値をチェックすることで、異常値のある行を削除することを考えました。 q_99 = data["City MPG (FT1)"].quantile(0.99) q_1 = data["City MPG