特定の親URLに対してn個の子URLを繰り返し取得する大規模なデータセットを使用しています。Pandas:行と列と入力値を動的に追加する
私は当初データを記録するためにExcelを使用しました(実際に私のコードをテストしてください)。しかし、その後、出力データが膨大なので、そのアイデアは価値がないことがわかりました。例えば
: 私は2つのデータセットがあります。
amazon.com: ['a','b','c','d','e']
a : ['k','j','e','f']
- をここで最初のケースでは、
amazon.com
は、親URLであると値のリストは、それが子供のURLですです。 - 次の場合、
a
は親URLになり、値のリストはその子URLになります。
今、私が実際に必要とするものは次のようにデータフレームを取得することです:1が問題今a is the child of amazon.com
を言うショーに値であると想定できる場合
a b c d e k j f
amazon.com 1 1 1 1 1
a 1 1 1 1
I」を受賞しています上記のようなデータがあります。私はウェブサイトをクロールすると動的に取得されます。
ので、フローは次のようになります。
Open a website URL
records the URL (parent URL - this is where we get the URL)
records all the URLs present in the page (child URL - this is where we get all the child URLs corresponding to the parent URL and hence can populate our list/dictionary and hence the dataframe)
ようには重複の列ヘッダーが見つからない、気づいたことができます。
誰かが私を助けてくれますか?これは役立つだろう
(https://stackoverflow.com/help/mcve) – kingmakerking