GoogleのPuppeteerでArtoo jsを使用してウェブを掻き集める

ArtooとPuppeteerを使用できないようです。 npm install artoo-jsまで使ってみましたが動作しませんでした。私も、人形のコマンドpage.injectFile(filePath)を使ってbuild path distを注入しようとしました。運がない。これらの2つのlibsをうまく組み込むことができる人は誰ですか？もしそうなら、artooがどのように注入されたかのコードスニペットが大好きです。GoogleのPuppeteerでArtoo jsを使用してウェブを掻き集める

出典

2017-08-26 jasan

私はあなたの質問に対する正確な答えを持っていけません。しかし、私は[Puppeteer＆Chrome HeadlessでのWeb廃棄]（https://medium.com/@e_mad_ehsan/getting-started-with-puppeteer-and-chrome-headless-for-web-scrapping-6bf5979dee3e）の記事を書いた。役に立つかもしれない。ありがとう。 – eMAD

私はちょうど私が私がここにあなたが:)

（ステップ0：あなたはそれを持っていない場合はYarnをインストールしてください）に行く、あまりにもArtooを試みることができる考え出し、another answerのための人形遣いを試してみました

yarn init 
yarn add puppeteer 
# Download latest artoo script, not as a yarn dependency here because it won't be by the Node JS runtime 
wget https://medialab.github.io/artoo/public/dist/artoo-latest.min.js

をindex.jsでこれを保存します。

const puppeteer = require('puppeteer'); 
(async() => { 
    const url = 'https://news.ycombinator.com/'; 
    const browser = await puppeteer.launch(); 
    const page = await browser.newPage(); 
    // Go to URL and wait for page to load 
    await page.goto(url, {waitUntil: 'networkidle'}); 
    // Inject Artoo into page's JS context 
    await page.injectFile('artoo-latest.min.js'); 
    // Sleeping 2s to let Artoo initialize (I don't have a more elegant solution right now) 
    await new Promise(res => setTimeout(res, 2000)) 
    // Use Artoo from page's JS context 
    const result = await page.evaluate(() => { 
     return artoo.scrape('td.title:nth-child(3)', { 
      title: {sel: 'a'}, 
      url: {sel: 'a', attr: 'href'} 
     }); 
    }); 
    console.log(`Result has ${result.length} items, first one is:`, result[0]); 
    browser.close(); 
})();

結果：

$ node index.js 
Result has 30 items, first one is: { title: 'Headless mode in Firefoxdeveloper.mozilla.org', 
url: 'https://developer.mozilla.org/en-US/Firefox/Headless_mode' }

_{これは見逃すにはあまりにも面白いです：今HackerNewsのトップ記事は、Firefoxヘッドレスについてです...}

出典

2017-08-30 16:39:18

ありがとう。私は間違ったファイルを注入していたようだ。 – jasan

ええ、ArtooのNPMパッケージを使っていないのですが、ブラウザJS実行時にDOMからデータを抽出するのに適していないことを正しく理解していれば、ノードJSランタイムから他のXMLドキュメントからデータを抽出するのに適しています。私が使ったURLはブックマークレットで使っているURLです。 –

Artooが初期化するのを待つことについては、単に page.waitFor（2000） – Ernest

GoogleのPuppeteerでArtoo jsを使用してウェブを掻き集める

答えて

関連する問題