私はリストのリストとして列の1つと100万行(ids)のPandas Dataframeを持っています。例: パンダのスライスリストのリストである列に存在する値に基づくデータフレーム
df = pd.DataFrame({'id':[1,2,3,4]、 'token_list':[['a'、 'b'、 'c']、['c'
私はすべてのユニークなトークンの辞書を作成したいと思っています - 'a'、 'b'、 'c'、 'e'、 'f'(私はすでに別のリストとして持っています)を各キーが関連付けられているすべてのIDとキーとして返します。たとえば、{'a':[1,3]、 'b':[1]、 'c':[1,2,4] ..}などです。
私の問題は、そのようなトークンが12000あって、最初のフレームの各行を実行するためにループを使いたくないということです。そして、働いているようではありません。最初にしてlist
と最後to_dict
とgroupby
を平坦化するためのnumpy.concatenate
と