Q

PDFから情報をスクラップする方法は？

2011-12-16 17 views 1 likes

1

私はMozenda（Mozenda.com）を使ってオンラインデータベースをスクラップしていますが、データの一部はPDFファイルです。 Mozendaはこれらのファイルのスクラップをサポートしていないようですので、私は別の解決策を探しています。二つの質問がありますPDFから情報をスクラップする方法は？

...

リンクからURLを選択するための適切なXPath構文がどのようなものです
？ Mozendaでこれを行う方法が明確ではなく、PDFのURL がサードパーティのソリューションを実装するために必要です。
多数のPDFをオンラインで htmlに変換する、またはそれをよく傷つける良いツールはありますか？

ご意見はお寄せください。私は明確にすることを喜んでいる...ちょうど尋ねる。

2011-12-16 user1043070

A

答えて

0

mozenda自体を使用すると、xpathを作成できます。アクションを作成する>アクションを絞り込む> put。 Xpathに保存し、CaptureDefinationから必要なデータを取得します。

2012-02-15 10:35:34

1

これは遅い回答ですが、MozendaはPDFをHTMLに変換してそれらからスクレイプする機能を追加しました。それはかなり簡単です。

https://www.mozenda.com/faqs

2014-07-17 16:25:35 TravisChambers