1
多分NULL列にPySpark CountVectorizerを使用する方法:私はそれにCountVectorizerを使用してい私は私のスパークデータフレームの列を持っている
|-- topics_A: array (nullable = true)
| |-- element: string (containsNull = true)
:
topic_vectorizer_A = CountVectorizer(inputCol="topics_A", outputCol="topics_vec_A")
私はNullPointerExceptionsがを取得し、理由topic_A列にnullが含まれることがあります。
方法はありますか?長さゼロの配列で埋めても問題ありませんが(データサイズがかなり大きくなります)、PySparkのArrayカラムでfillNaを実行する方法はありません。