scrape

    0

    1答えて

    私はoctoparseや類似のソフトウェアで動作するXPath技法を手に入れようと苦労しています。私は今ここで記事を読んでからGoogleシートをしようとしているとどちらも動作するようになることはできません。 入力:slideshareプレゼンテーションURL(例えばhttps://www.slideshare.net/carologic/ai-and-machine-learning-demys

    -3

    2答えて

    私は17kのURLのハイパーリンクのリストを持つExcelシートを持っています。それぞれのリンクをクリックして、結果のWebページからExcelシートにデータをスクラップする作業を自動化する必要があります。 OSXのMacでこれを行う最高の無料の方法は何ですか?

    0

    1答えて

    このプロジェクトでは、「ウェブサイト」をスクラップする必要があります。これは、ローカルフォルダのhtmlファイルです。とにかく、私は各学生のオブジェクトのアンカータグのhref値(URL)にこだわっています。私も他のものを掻き集めているので、残りは無視してください。ここで私はこれまで持っているものである:ここでは def self.scrape_index_page(index_url) #res

    0

    1答えて

    Googleシートでimportxmlを使用して、すべての製品の詳細をスクラップしようとしています。製品ページへのリンクを抽出するのに問題があります。 =importxml("http://au.boohoo.com/womens/dresses/new-in","//div[@class='thumb-link']/@href") 以下のクエリを使用しようとして 私は入れませんすべてが「インポー

    0

    2答えて

    私は機械化された宝石を使って、ログインの後ろにあるページを掻き集めようとしています。しかし、私が使用しているサイトでは、htmlのユーザ名やパスワードフィールドに名前をつけません。私はMechanizeのドキュメントを検索しましたが、フィールド名を使用せずにフィールドにテキストを入力するコードはありません。ページ上の5番目の要素、または最初のテキストボックスを見つける方法はありますか?

    0

    1答えて

    URLページのすべてのコメントを掻き集めるスクレーパーを作成していますが、テキストをtxtファイルに保存しています(1コメント= 1 txt)。 コメントのテキストに絵文字があるときに問題が発生しました。実際には、プログラムは停止し、 "UnicodeEncodeError: 'charmap'コーデックで文字をエンコードできません。どうすればこの問題に合格することができますか?誰にでも q=re

    0

    1答えて

    は、このHTMLリストを仮定します <li> <strong> Admin name </strong> <span itemprop="addresslocality"> Amsterdam </span> <li> <li> <strong> Latitude </strong> <span itemprop="addresslocality"> 52.370216 </span>

    -1

    1答えて

    私はこのgolang packageを使ってウェブサイトの画像をスクラップしようとしています。 これはスクラップする必要のあるhtmlノードです。 <ul class="list clearfix"> <li> <div> <a href=www.example.com/asda"> <img src="..sadsada./ssa/3.jpg">

    0

    0答えて

    私はウェブサイトをこすりしようとしていますし、私は関係なく、私がしようとするもので403 Forbiddenを取得していない午前403を取得: wgetの CURL(コマンドラインとPHP) PerlをWWW :: PhantomJS を機械Iは、ユーザエージェントを変更する、プロキシととせずに、上記の全てを試し、そしてリファラヘッダを追加します。 私のChromeブラウザからリクエストヘッダーを