私はpythonを使用して新しい機能を追加しました。pythonを使用してカウントを取得するためのデータの読み込みとグループ化
私は以下のようなファイルがある -
empid||deptid||salary
1||10||500
2||10||200
3||20||300
4||20||400
5||20||100
私は各部門での印刷に従業員の数を読み取るために、小さなPythonの火花を書きたいし。
私はデータベースで作業していますが、これはSQLでは非常に簡単ですが、私はこれをpython sparkを使って実行しようとしています。私は完全にPythonとスパークに新しいので、共有するコードはありませんが、単純な実践例を使ってどのように動作するのかを理解したかった
私はpysparkをインストールしました。
あなたが使用してデータフレームとしてテキストファイルを読み込むことができますが1がして、グループのようなSQLを実行することができますどのデータフレームがありますが、適切なコードを書く方法がわからない
df.groupBy( "deptid")。count()。show() - >私にすべてのカウントを与えますが、カウントの最大値が必要な場合は? df.groupBy( "deptid")。count()。max()。show() - > does not work @Marie – Firstname
私は、 – MaFF