のは、私はこのようなcsvファイル(実際に私は可能100+異なるサービス以上のものを持っている)があるとしましょう:数のすべての可能な2グラム
user_id, services
user_1, "s1,s2,s1,s4,s2,s3,s2"
user_2, "s2,s3,s2,s1,s4"
を、私は最終的に持っているしたいと思いますこの、可能であればほとんどのpythonとパンダを使用して:
user_id, c12,c21,c13,c31,c14,c42,c23,c32,c14,c43,c34
user_1, 1,1,0,0,1,1,1,1,0,0,0
user_2, 0,1,0,0,0,0,1,1,1,0,1
cij
=、私はそれがsequenのためだけでなく、使用できるように理想的
sequence si,sj for each user
の数たい
2のceだけでなく3のシーケンスも返されます。
私がSOで見つけたのはsi sjの全体のカウントですが、このようなカウントはありません。私はまた、nグラムいくつかの点で、ピボットテーブルを必要とする、と推測するが、私はそれを一緒に混在させる方法がわからない:/
ご協力いただきありがとうござい
ITSはいいだろう簡単にコピー+はあなたの問題を解決しようとする人々のためのペーストです:) – Roelant