0
私は火花1.6とPython 2.7を使用していますが、私は以下のようなスパークデータフレームを持っている:スパークSQLのデータフレームでスワップ2つの列を、重複を削除
df = sqlContext.createDataFrame([
("ab", "bc"),
("bc", "cd"),
("cd", "ab"),
("bc", "ab"),
("cd", "bc"),
("ab", "cd"),
], ["col1", "col2"])
このデータフレームは、「COL1」としてグラフの頂点が含まれています"col2"。私がしようとしているのは、col1とcol2の複製ペアを削除することです。 colcol1が列を入れ替えて別の操作を実行した場合、col1とcol2を比較してください。
が操作した後、その結果は次のようになります。
+------------+
| col1 col2 |
+------------+
| ab bc |
| bc cd |
| cd ab |
+------------+
は基本的に、私は唯一の有向エッジを持つグラフを作成しようとしています。
ありがとうございます。レコードセットに3億のレコードが含まれていると効率的ですか? – user1590716
はい@ user1590716私はそう思います。 –