私は、各行がニュース記事であるpyspark.sql.dataframeを持っています。私は各記事に含まれる言葉を表すRDDを持っています。新しい記事のデータフレームに単語のRDDを「単語」という列として追加したいと思います。私はpyspark.sql.dataframeに新しい列としてPySpark RDDを追加します。
df.withColumn('words', words_rdd)
を試してみましたが、私はエラー
AssertionError: col should be Column
は、データフレームは、この
Articles
the cat and dog ran
we went to the park
today it will rain
のようになりますが、私は3Kのニュース記事があり得ます。
は、私は、このような削除ストップワードとしてテキストをきれいにする機能を適用し、私はこのようになりますRDDを持っている:[[cat, dog, ran],[we, went, park],[today, will, rain]]
私はこのように見えるように、私のデータフレームを取得しようとしている:
Articles Words
the cat and dog ran [cat, dog, ran]
we went to the park [we, went, park]
today it will rain [today, will, rain]
例データを共有してください。おそらく参加する必要があります。 – mtoto
どのように一致していますか?なぜ猫と犬が走った記事にマッチしているのですか? –