scrape

0熱

1答えて

私はoctoparseや類似のソフトウェアで動作するXPath技法を手に入れようと苦労しています。私は今ここで記事を読んでからGoogleシートをしようとしているとどちらも動作するようになることはできません。入力：slideshareプレゼンテーションURL（例えばhttps://www.slideshare.net/carologic/ai-and-machine-learning-demys

-3熱

2答えて

URLスクレイピングタスクを自動化するにはどうすればよいですか？

私は17kのURLのハイパーリンクのリストを持つExcelシートを持っています。それぞれのリンクをクリックして、結果のWebページからExcelシートにデータをスクラップする作業を自動化する必要があります。 OSXのMacでこれを行う最高の無料の方法は何ですか？

0熱

1答えて

Rubyでのアンカーのhref値の掻き立て

このプロジェクトでは、「ウェブサイト」をスクラップする必要があります。これは、ローカルフォルダのhtmlファイルです。とにかく、私は各学生のオブジェクトのアンカータグのhref値（URL）にこだわっています。私も他のものを掻き集めているので、残りは無視してください。ここで私はこれまで持っているものである：ここでは def self.scrape_index_page(index_url) #res

0熱

1答えて

google importxmlを使用して製品の詳細を製品ページに表示するには問題があります

Googleシートでimportxmlを使用して、すべての製品の詳細をスクラップしようとしています。製品ページへのリンクを抽出するのに問題があります。 =importxml("http://au.boohoo.com/womens/dresses/new-in","//div[@class='thumb-link']/@href") 以下のクエリを使用しようとして私は入れませんすべてが「インポー

0熱

2答えて

Ruby Mechanize Gem名前のないフィールドを見つける

私は機械化された宝石を使って、ログインの後ろにあるページを掻き集めようとしています。しかし、私が使用しているサイトでは、htmlのユーザ名やパスワードフィールドに名前をつけません。私はMechanizeのドキュメントを検索しましたが、フィールド名を使用せずにフィールドにテキストを入力するコードはありません。ページ上の5番目の要素、または最初のテキストボックスを見つける方法はありますか？

0熱

1答えて

bs4でphytonのテキストを削り取る方法

URLページのすべてのコメントを掻き集めるスクレーパーを作成していますが、テキストをtxtファイルに保存しています（1コメント= 1 txt）。コメントのテキストに絵文字があるときに問題が発生しました。実際には、プログラムは停止し、 "UnicodeEncodeError： 'charmap'コーデックで文字をエンコードできません。どうすればこの問題に合格することができますか？誰にでも q=re

0熱

1答えて

が「Latitude」の場合にのみ、スパン値をクロールするにはどうすればよいですか？ NodeJSチェリオ

は、このHTMLリストを仮定します <li> Admin name Amsterdam <li> <li> Latitude 52.370216

-1熱

1答えて

Golangはマッチを定義する方法を掻き立てる

私はこのgolang packageを使ってウェブサイトの画像をスクラップしようとしています。これはスクラップする必要のあるhtmlノードです。 <ul class="list clearfix"> <li> <div> <a href=www.example.com/asda"> <img src="..sadsada./ssa/3.jpg">

0熱

0答えて

スクレイピング試みエラー

私はウェブサイトをこすりしようとしていますし、私は関係なく、私がしようとするもので403 Forbiddenを取得していない午前403を取得： wgetの CURL（コマンドラインとPHP） PerlをWWW :: PhantomJS を機械Iは、ユーザエージェントを変更する、プロキシととせずに、上記の全てを試し、そしてリファラヘッダを追加します。私のChromeブラウザからリクエストヘッダーを