spark SQLContextを使用してJSONファイルをデータフレームにロードしました。 異なるユーザーからのつぶやきを保存します。それは以下のように見えます。私はPythonでこのデータフレームのデータを探索するためにpandasライブラリを使用しています。データフレームでsort_index()を使用するには?
import pandas as pd
tweets = pd.read_json('/filepath')
sqlcontext = SQLContext(sc)
tweet_sdf = sqlcontext.createDataFrame(tweets)
tweet_sdf.show(10)
+-------------+------------------+-------------+--------------------+-------------------+
| country| id| place| text| user|
+-------------+------------------+-------------+--------------------+-------------------+
| India|572692378957430784| Orissa|@always_nidhi @Yo...| Srkian_nishu :)|
|United States|572575240615796736| Manhattan|@OnlyDancers Bell...| TagineDiningGlobal|
|United States|572575243883036672| Claremont|1/ "Without the a...| Daniel Beer|
|United States|572575252020109312| Vienna|idk why people ha...| someone actually|
|United States|572575274539356160| Boston|Taste of Iceland!...| BostonAttitude|
|United States|572647819401670656| Suwanee|Know what you don...|Collin A. Zimmerman|
| Indonesia|572647831053312000| Mario Riawa|Serasi ade haha @...| Rinie Syamsuddin|
| Indonesia|572647839521767424|Bogor Selatan|Akhirnya bisa jug...| Vinny Sylvia|
|United States|572647841220337664| Norwalk|@BeezyDH_ it's li...| Cas|
|United States|572647842277396480| Santee| obsessed with music| kimo|
+-------------+------------------+-------------+--------------------+-------------------+
only showing top 10 rows
tweet_sdf.printSchema()
root
|-- country: string (nullable = true)
|-- id: long (nullable = true)
|-- place: string (nullable = true)
|-- text: string (nullable = true)
|-- user: string (nullable = true)
インデックス 'id'にデータフレームをソートしようとしています。
しかし、私は以下に述べる属性エラーを受け取ります。 はAttributeError:「DATAFRAME」オブジェクトが属性「sort_index」
---------------------------------------------------------------------------
AttributeError Traceback (most recent call last)
<ipython-input-106-6cd99444a12a> in <module>()
----> 1 tweet_sdf.sort_index(by='id', ascending=False, inplace=True)
/home/notebook/spark-1.6.0-bin-hadoop2.6/python/pyspark/sql/dataframe.pyc in __getattr__(self, name)
837 if name not in self.columns:
838 raise AttributeError(
--> 839 "'%s' object has no attribute '%s'" % (self.__class__.__name__, name))
840 jc = self._jdf.apply(name)
841 return Column(jc)
AttributeError: 'DataFrame' object has no attribute 'sort_index'
パンダのバージョンは0.18.0とPythonのバージョンではありませんしているが2.7.11 です誰かがこの方法で動作している理由を私は理解するのに役立つことはできますか?
「tweet_sdf」の種類は何ですか? – Deusdeorum
"pyspark.sql.dataframe.DataFrame"タイプです – Srinivas
'sort_index'の代わりに' sort'を使用してみてください。 – Deusdeorum