dataframe

1熱

1答えて

2カラムインデックスを持つDataFrameがあるので、そのDataFrameから行をフィルタリングし、元のデータフレームのINDEX列のみを新しいフィルタリング済みのDataFrameに保存しようとしています。は私がしてCSVファイルからデータフレームを作成しました：CSVはその後 here census_df = pd.read_csv("census.csv", index_col = [

1熱

2答えて

のpythonでの非数値変数のヒストグラムを作成する方法

サンプル・データ import pandas as pd import matplotlib.pyplot as plt dummy = {'id': [1,2,3,4,5], 'brand': ['MS', 'Apple', 'MS', 'Google', 'Apple'], 'quarter': ['2017Q2', '2017Q2', '2017Q2', '20

2熱

2答えて

Rマークダウン出力ページ幅

Rマークダウンを使用して、ページより広いデータフレームの先頭を出力します。私は改ページを自動的に挿入したいと思います。これは可能ですか？次の例は私の意図を示しています： test_dt <- as.data.frame(matrix(1:300, ncol = 30)) head(test_dt) 私が得るのは最初のいくつかの列を含むスライドです。残りは切り捨てられます。私が欲しいのは、私が

1熱

1答えて

返品によるパンダのグループNANのapply vs transformの機能

私は自分自身を説明することができない状況に直面しています。まず、applyとtransform関数についてです。今まで私が理解していたのはデータフレーム全体に適用されますが、変換は各行で動作するため適用よりも遅くなりました。だからここに私のデータフレームは、私がdf.groupby('id')['size'].apply(lambda col: ', '.join(col))を適用するときには、

-1熱

1答えて

PySpark - データフレーム内の列を合計し、結果をintとして返します

私は数字の列を持つpysparkデータフレームを持っています。その列を合計し、その結果をPython変数のintとして返す必要があります。 df = spark.createDataFrame([("A", 20), ("B", 30), ("D", 80)],["Letter", "Number"]) 私は次のようにして列を合計します。 df.groupBy().sum() しかし、デー

0熱

1答えて

データフレーム列のリストの列の種類を変更する方法

Spark 1.6.0でDataframeの列のリストの種類を変更しようとしています。以下のためにこれを行うのいずれかの効率的な、バッチ方法はあり val castedDF = filteredDf.columns.foldLeft(filteredDf)((filteredDf, c) => filteredDf.withColumn(c, col(c).cast("String"))) ：

2熱

1答えて

Python - Pandas - 指定されたレベルに特定の関数を適用する - マルチインデックスDataFrame

私はマルチインデックスのDataFrameを使用していますが、私のレベルの1つに割り当てられたベクトルに対してのみ計算を適用したいと考えています。私は、この特定の出力を得るために、私のデータの配合合計を計算するために探しています：それは次のような出力を提供します import pandas as pd import datetime ticker_date = [('US',datetime

2熱

4答えて

ネストされたリストからデータフレームを結合する

ネストされたリストに含まれるデータフレームと簡潔な構文を組み合わせる際に問題があります。私は、次の形式のネストされたリストを持っている： nestedList <- lapply(1:3,function(y){ lapply(1:8,function(z){ data.frame(matrix(rnorm(20), nrow=10)) }) }) のでnest

0熱

1答えて

時系列の欠損値に次の値と前の値を書き込む

私は以下のような時系列の欠損値を記入しようとしています。私はPython3を使用しています。 Week Rainfall(cm) 1 1 2 NaN 3 9 4 10 5 11 6 NaN 7 NaN 8 14 欠損値を平均で埋めることは望ましくありません。私が手で行ってNaN値を記入すると、第2週の降雨量は5cm、第6週と第7週の降雨量はそれぞれ12cmと13cmになると思わ

1熱

1答えて

Pandas set_value（）insert float weirdが奇妙に動作する

私たちのインターンはpandasのコードを書いていて、エラーを見つけることができないと訴えていますが、結果は期待通りではありません。私はいくつかの私は、この中に問題を薄くし予期しない動作使ってパンダdataframe.set_value() に走ったので、驚くべきことに、私は、どちらか彼を助けることができなかった：110以上挿入float値またはそのデータフレームに間違った負の値を生成します。