pandas

    0

    1答えて

    私は2つのcsvを持っていますが、1列の値で行を照合することができます(この列を微調整した後)。マッチングの後、私はそれらの両方からいくつかの値を取って新しい組み合わせの行を作りたいと思う。私はそれらの両方のためcsv.DictReaderを使用して簡単なスクリプトを考え、次にダブル for row1 in csv1: for row2 in csv2: if row1['someID

    1

    2答えて

    これは数字と文字列を含む私のデータです。 df2 = pd.DataFrame({'A': ['1,008$','4,000$','6,000$','10,00$','8,00$','45€','45€']}) df2 = pd.DataFrame(df2, columns = ['A']) vv=df2[df2['A'].str.match('$')] このような出力が必要です。 0 1

    0

    1答えて

    私はPysparkデータフレームを既存のPandasコードに統合/追加する際に多くの問題に直面しています。 1)PandasデータフレームをPysparkデータフレームに変換すると、PysparkデータフレームがPandasデータフレームほど豊かではないように見えるため、複数の操作がうまく変換されません。 2)PysparkデータフレームとPandasを使用して同じコード内の異なるデータセットを処

    1

    1答えて

    the docによると、pandas.read_excelには、どのシートが読み取られるかを指定できるパラメータsheet_nameがあります。しかし、2番目のシートをExcelファイルから読み取ろうとすると、パラメータ(sheet_name = 1、sheet_name = 'Sheet2')を設定しても、データフレームは常に最初のシートを表示し、インデックスのリストを渡すと(sheet_nam

    1

    1答えて

    私は自分のシステムにpython 2 & 3をインストールしました。私はUbuntuを使用しています。また、Spyder IDEを使用します。 私はpython3でPandasのバージョンをアップグレードしようとしていますが、Python3でpandasをアップグレードすることはできません。現在、そのパンダ0.17.1 は、私は次のことを試してみました: pip install --upgrade

    0

    1答えて

    の各列の分散行き方:そのため col1 Feature0 Feature1 Feature2 Feature3 Feature4 Feature5 Feature6 Feature7 Feature8 Feature9 col2 26658 40253.5 3.22115e+09 0.0277727 5.95939 266.56 734.248 307.364 0.000566779

    0

    1答えて

    ように私はdatafram dfを持っている:私は出力を生成したい task_count task date 0 82586 foo 2015-10-31 1 57417 foo 2016-08-31 2 47800 bar 2016-12-31 3 62331 foo 2016-02-29 4 45852 bar 2017-07-31 として:今のところ、これは

    0

    1答えて

    から条件付き外れ値を取得します。私は2つの列を持つデータフレームを持っています。手動5速( 'Transmission'列にある1つのタイプのトランスミッション)には異常値があります。 分数値を使って値をチェックすることで、異常値のある行を削除することを考えました。 q_99 = data["City MPG (FT1)"].quantile(0.99) q_1 = data["City MPG