1
私は4211行と1列を持つデータフレームdf
を有する:python-pandasでデータフレームを高速に大きな行列に変換するには?
bow
0 [(6,1),(8,3),(9,1),...]
1 [(1,1),(3,1),(10,1),...]
2 [(9,2),(12,3),(13,1),...]
...
各行はbow
文書およびリストを表すには、袋のワードに、word id
その文書におけるそれらの対応occurrence times
ありますフォーマット。例えば、最初の文書では、id 6
の単語が1回発生し、id 8
の単語が3回発生しました。全部で5000
個の単語と4211
個の文書があります。 今このデータフレームを * 5000
のサイズの大きいdoc-word
マトリックスに変換したいと思います。 m_ij=n
は、IDがi
の単語がj
のn
回出現することを示します。どうすれば速く実装できますか?前もって感謝します!
私は一連の反復を試み、値を割り当てました。そして、ちょうど1,2秒かかった。 – user5779223
あなたの質問に投稿したデータセットに望ましい出力を提供してください – MaxU