RDDデータから特定の列を選択しようとしています。私のデータは次のようになります:RDDで列を選択
colA | colB
1 | cat,bat
2 | cat
3 | horse,elephant, mouse
さまざまな長さのcolBを抽出したいと思います。
colB
cat,bat
cat
horse,elephant,mouse
私はRDDを作成することによって、次のよう:
sqlContext = SQLContext(sc)
data = sc.textFile("filename").map(lambda line: line.split(","))
缶あなたはrddがどのように作成されたかを示しますか? –
オリジナルの投稿にコードを追加しました。ありがとう。 – Nivi
ok、colAとcolBの分離方法は?私はコンマで ''、 '? –