私はScala、Spark、MLlibから始めています。 例を実装したいKaggleSparkのクリーニングとデータの準備
データ形式がひどく、データを処理してデータを整理して処理するのに問題があります。私はあなたの助けを求める。
データは次のとおりです。
PassengerId、生き残っ、PCLASS、名前、性別、年齢、SibSp、炒る、チケット、運賃、キャビンは、着手 1,0,3、「Braund、氏オーウェンHarris "、男性、22,1,0、A/5 21171,7.25、S
2,1,1" Cumings、Mrs. John Bradley(Florence Briggs、Florence Briggs Thayer) "、女性、38,1 、0、PC17599,71.2833、C85、C
3,1,3 "Heikkinen、Miss.Laina"、女性、26,0,0、STON/O2。 3101282,7.925、S
4,1,1、 "Futrelle、夫人ジャック・ヒース(リリー月 ピール)"、女性、35,1,0,113803,53.1、C123、S
5,0,3、 "アレン氏ウィリアム・ヘンリー"、男性、35,0,0,373450,8.05、S
私は、このような
として空のフィールドのエラーを得ました...、 ""、...(1行目、フィールド "キャビン")
私は空のフィールドでラインをフィルタリングしたい(私のRDDからそれらを削除する)、そして "このようなチケットを持っている行もA/5 21171(私はちょうどいいです)。
もう一度お返事ありがとうございます。 ;)
ありがとうございます! :) :)それは完全に私の問題を解決する。今、私はちょうどそこに値 "ヌル"と列の年齢にいくつかの未加工があると思うし、私は(あまりにも多くの情報を失うことはありません)平均でそれらを置き換えるしたいと思います。 fill-> fill(String value、String [] cols)という関数を読みましたが、fill( "average"、$ "Age")を書いたときに関数がオーバーロードしていることがわかりました。また、私は試しました:titanicDs.withColumn( "Age"、次に "col" "Age")。equalTo(null)、media))しかし、すべての値をnullに設定しています... .....もう一度お手伝いできますか?それは最後のハハハです。再度、感謝します! ;) – Borja
喜んで助けてください。しかし、新しい質問を投稿して、将来同じことが起こるSparkユーザーのために答えが検索できるようにしてください。 – Vidya
アップ!申し訳ありません、私はこれで新しいです。 – Borja