私はyelpデータセットからアイテムベースの推奨システムを構築しようとしています。私は一定の州のレストランを見直したすべてのユーザーから与えられた格付けをどこまでデータを処理することができましたか。最終的には、1つの軸にレストランを、もう1つにユーザーを配置し、評価(1-5)を中間(評価が不足している場合はゼロ)に設定しています。2d評価マトリックスを作成するためにパンダのデータフレームを再編成する
今のDFは、次のようになります。
user_id review_id business_id stars
0 Xqd0DzHaiyRqVH3WRG7 15SdjuK7DmYqUAj6rjGowg vcNAWiLM4dR7D2nwwJ7nCA 5
1 Xqd0DzHaiyRqVH3WRG7 15SdjuK7DmYqUAj6rjGowg vcNAWiLM4dR7D2nwwJ7nCA 5
2 H1kH6QZV7Le4zqTRNxo RF6UnRTtG7tWMcrO2GEoAg vcNAWiLM4dR7D2nwwJ7nCA 2
3 zvJCcrpm2yOZrxKffwG -TsVN230RCkLYKBeLsuz7A vcNAWiLM4dR7D2nwwJ7nCA 4
4 KBLW4wJA_fwoWmMhiHR dNocEAyUucjT371NNND41Q vcNAWiLM4dR7D2nwwJ7nCA 4
5 zvJCcrpm2yOZrxKffwG ebcN2aqmNUuYNoyvQErgnA vcNAWiLM4dR7D2nwwJ7nCA 4
6 Qrs3EICADUKNFoUq2iH _ePLBPrkrf4bhyiKWEn4Qg vcNAWiLM4dR7D2nwwJ7nCA 1
が、私はそれはもう少し、このようになりたいと思います:
(×5人のユーザー4つのレストラン)
0 4 3 4 5
3 3 3 2 1
1 2 3 4 5
0 5 3 3 4
ここにコピー可能な例を含めるとよいでしょう。ピボットのようなものが必要ですが、yelpデータセットは実際にはまばらなので、メモリの問題が発生する可能性があります。この構造はより適切であり得る。 – ayhan
画像へのリンクの代わりに?私はどうすればよいか分かりませんが、試してみることができます – mmera
'df = pd.DataFrame({'A':['a'、 'b'、 'c'、 'c']のようなダミーデータを持つサンプルがベストだと思います。 、 'B':['g'、 'h'、 'f'、 'p']、 'C':[7,8,9,1]}) '、必要に応じて修正してください。また、希望の出力を追加するのを忘れないでください。 – jezrael