私は、アカデミックプロジェクトの一環としてウェブスクレイピングを行っています。そこでは、すべてのリンクが実際のコンテンツに従うことが重要です。耳障りなことに、「ソーシャルメディア管理」サイトにはいくつかの重要なエラーケースがあり、ユーザーはリンクを投稿してクリックを検出します。ソーシャルメディア管理ウェブサイトのオリジナルのURLに移動します
たとえば、http://conservatives4palin.comにリンクしているhttp:// + bit.ly +/1P1xh9J(SOの投稿の制限によりリンクが分かれている)にリンクするthis link on linkis.comを考えてみてください。 linkis.comの元のリンクは自動的に転送されないため、問題が発生します。代わりに、ユーザーは元のURLに移動するには右上隅の十字をクリックする必要があります。
さらに、さまざまなバリエーションがあるようです(たとえば、linkis.com link 2、ここで十字はウェブサイトの左下にあります)。これらは私が見つけた唯一の2つのバリエーションですが、それ以上のものもあります。私はthis oneとよく似たウェブスクレーパーを使用しています。これは1回限りの学術プロジェクトであるため、実際のリンクに進む機能は時間の経過と共に安定している必要はありません。
自動的に元のURLに移動しますか?最良のアプローチは関連リンクを見つける正規表現を設計することでしょうか?
「unshorten URLパイソン」を探している答えが、を記述する時間がないが、あなたのコードは動作しません – Josay