scrapy

    0

    2答えて

    function内でbranchIdを取得したいのですが、couldntです。あなたは関数からどうやって得るかについて考えていますか? item["branchId"] = row.xpath('//div[@class="branchprofile"]//script/text()').extract()[0] HTMLコード: <div id="branchprofile"> <scri

    0

    1答えて

    私はそのディレクトリから、大学の教授の連絡先情報を収集するためにscrapyを使用しようとしています。私は2つ以上のリンクを投稿できないので、すべてのリンクをfollowing pictureに入れます。 私は写真のように、ドロップダウンメニューから[等しい姓を設定します。それから私はすべての教授を姓で検索します。 通常、URLは、他の大学のウェブサイトからいくつかのパターンがあります。しかし、こ

    -2

    1答えて

    私は、BS4 & Scrapyを使用してWebページを削っています。新しいことがあるかどうかを確認する方法はありますか?もしそうなら、コピーして印刷することはできますか? たとえば、hereは私がこの投稿を書いているようにライブです。各得点ゴールは、プレーヤーの名前、時間、サッカーボールで表され、のspanです。ページを確認するにはどうすればいいですか、2分ごとにして、誰かがゴールを決めたらプリン

    0

    1答えて

    クロムドライバでScrapyとSeleniumを使用してウェブサイトをスクラップしています。私は404を与えているウェブサイトに実装されている保護機構があるので、Scrapyを使用してウェブサイトを掻き集めることはできません。私が治療でセレンを使用しているとき、私はページhtmlにアクセスできます。しかし、問題は私がセレニウムを使用しているときです。セッションクッキーを治療を通してアクセスされたす

    0

    1答えて

    私はmacOS Sierraを使用していますが、私は自分のMySQLレコードをscrapyと一緒に更新しようとしていますが、最近は2006年のMySQLが廃止されました。 this guideに続いて、クロールの途中です。ターミナルは、以下でクラッシュします: クラッシュレポート: python(85034,0x70000b397000) malloc: *** error for object

    3

    2答えて

    私は、Webページから別の名前を解析するために、小さなスクレーパーをPython Scrapyで作成しました。ページは、ページ付けによってさらに4ページを横断しました。ページ全体での総数は46であるが、36の名前を奪っている。 スクレーパーは最初のリンク先ページの内容をスキップしますが、私のスクレーパーではparse_start_url引数を使用して処理しました。 しかし、私は今このスクレーパーで

    0

    2答えて

    私は治療に慣れていないので、この問題を何時間も苦労しています。 そのソースは何とかこのようになりますと、私は、ページをこすりする必要があります:私は、タグが「Alpha_kinase」の値を持つ場合にのみ、tr.oddタグの情報を取得する必要があります <tr class="odd"> <td class="pfama_PF02816">Pfam</td> <td><a

    0

    1答えて

    「id」とアンカータグに対応する値を取得したいと思います。 <li id="1" class="list"> <a class="tim">This is Link1</a> <li id="2" class="list"> <a class="tim">This is Link2</a> <li id="3" class="list"> <a class="ti

    1

    2答えて

    これは私が試していたURLです。私は記事の本文内容を取得しようとしていました。 "テレビでの共同視聴..."。私は次の式を試しました: [In 1]:response.xpath("//*[contains(@class, 'text parbase')]//text()").extract() [Out 1]:[] [In 2]:response.xpath("//*[contains(@

    0

    1答えて

    私はpython scrapyでスクリプトを書いて、craigslistから別のカテゴリを解析しました。スクリプトを実行している奇妙なことに気づいた。それは完璧に実行され、苦情に何も残さない。しかし、問題は次のようにitems.pyを空白のままにしておくと、クロールプロセスに影響がないことです。私の質問は私の治療プロジェクトで何をやっているのですか?前もって感謝します。 "Items.py" ファ