2011-12-16 9 views
1

私はMozenda(Mozenda.com)を使ってオンラインデータベースをスクラップしていますが、データの一部はPDFファイルです。 Mozendaはこれらのファイルのスクラップをサポートしていないようですので、私は別の解決策を探しています。二つの質問がありますPDFから情報をスクラップする方法は?

...

  1. リンクからURLを選択するための適切なXPath構文がどのようなものです

    ? Mozendaでこれを行う方法が明確ではなく、PDFのURL がサードパーティのソリューションを実装するために必要です。

  2. 多数のPDFをオンラインで htmlに変換する、またはそれをよく傷つける良いツールはありますか?

ご意見はお寄せください。私は明確にすることを喜んでいる...ちょうど尋ねる。

答えて

0

mozenda自体を使用すると、xpathを作成できます。アクションを作成する>アクションを絞り込む> put。 Xpathに保存し、CaptureDefinationから必要なデータを取得します。

1

これは遅い回答ですが、MozendaはPDFをHTMLに変換してそれらからスクレイプする機能を追加しました。それはかなり簡単です。

https://www.mozenda.com/faqs