scrapy

0熱

2答えて

function内でbranchIdを取得したいのですが、couldntです。あなたは関数からどうやって得るかについて考えていますか？ item["branchId"] = row.xpath('//div[@class="branchprofile"]//script/text()').extract()[0] HTMLコード： <div id="branchprofile"> <scri

0熱

1答えて

暗号化されたURLからデータをクロールする方法は？

私はそのディレクトリから、大学の教授の連絡先情報を収集するためにscrapyを使用しようとしています。私は2つ以上のリンクを投稿できないので、すべてのリンクをfollowing pictureに入れます。私は写真のように、ドロップダウンメニューから[等しい姓を設定します。それから私はすべての教授を姓で検索します。通常、URLは、他の大学のウェブサイトからいくつかのパターンがあります。しかし、こ

-2熱

1答えて

Pythonの特定のWebページに新しいものがあるかどうかを確認するには？

私は、BS4 & Scrapyを使用してWebページを削っています。新しいことがあるかどうかを確認する方法はありますか？もしそうなら、コピーして印刷することはできますか？たとえば、hereは私がこの投稿を書いているようにライブです。各得点ゴールは、プレーヤーの名前、時間、サッカーボールで表され、のspanです。ページを確認するにはどうすればいいですか、2分ごとにして、誰かがゴールを決めたらプリン

0熱

1答えて

セレンとクロームドライバを使った治療は、複数のリクエストでセッションを保持します

クロムドライバでScrapyとSeleniumを使用してウェブサイトをスクラップしています。私は404を与えているウェブサイトに実装されている保護機構があるので、Scrapyを使用してウェブサイトを掻き集めることはできません。私が治療でセレンを使用しているとき、私はページhtmlにアクセスできます。しかし、問題は私がセレニウムを使用しているときです。セッションクッキーを治療を通してアクセスされたす

0熱

1答えて

再接続しようとするとMySQL/Python端末がクラッシュする

私はmacOS Sierraを使用していますが、私は自分のMySQLレコードをscrapyと一緒に更新しようとしていますが、最近は2006年のMySQLが廃止されました。 this guideに続いて、クロールの途中です。ターミナルは、以下でクラッシュします：クラッシュレポート： python(85034,0x70000b397000) malloc: *** error for object

3熱

2答えて

2番目のページの内容を無視した治療

私は、Webページから別の名前を解析するために、小さなスクレーパーをPython Scrapyで作成しました。ページは、ページ付けによってさらに4ページを横断しました。ページ全体での総数は46であるが、36の名前を奪っている。スクレーパーは最初のリンク先ページの内容をスキップしますが、私のスクレーパーではparse_start_url引数を使用して処理しました。しかし、私は今このスクレーパーで

0熱

2答えて

指定された表示内容のhtmlタグを選択

私は治療に慣れていないので、この問題を何時間も苦労しています。そのソースは何とかこのようになりますと、私は、ページをこすりする必要があります：私は、タグが「Alpha_kinase」の値を持つ場合にのみ、tr.oddタグの情報を取得する必要があります <tr class="odd"> <td class="pfama_PF02816">Pfam</td> <td><a

0熱

1答えて

idに対応する値を取得する方法

「id」とアンカータグに対応する値を取得したいと思います。 <li id="1" class="list"> <a class="tim">This is Link1</a> <li id="2" class="list"> <a class="tim">This is Link2</a> <li id="3" class="list"> <a class="ti

1熱

2答えて

Scrap xpathが動作しません（おそらくparbaseを持つもの）

これは私が試していたURLです。私は記事の本文内容を取得しようとしていました。 "テレビでの共同視聴..."。私は次の式を試しました： [In 1]:response.xpath("//*[contains(@class, 'text parbase')]//text()").extract() [Out 1]:[] [In 2]:response.xpath("//*[contains(@

0熱

1答えて

奇妙な行動をするクローラ

私はpython scrapyでスクリプトを書いて、craigslistから別のカテゴリを解析しました。スクリプトを実行している奇妙なことに気づいた。それは完璧に実行され、苦情に何も残さない。しかし、問題は次のようにitems.pyを空白のままにしておくと、クロールプロセスに影響がないことです。私の質問は私の治療プロジェクトで何をやっているのですか？前もって感謝します。 "Items.py" ファ