2016-07-22 7 views
-1

最近私はウェブスパイダーを書こうとしているので、PHPで書かれたウェブスパイダーに関するいくつかのプロジェクトを見つけました。phpの拡張子 "PCNTL"はウェブスパイダーに適していますか?

これらのプロジェクトでは、拡張子「PCNTL」が頻繁に使用されていましたが、詳細なチュートリアルやマニュアルは見つかりませんでした。

拡張子 "PCNTL"がウェブスパイダーに本当に適しているかどうかを知りたいですか?もしそうでなければ、代替案は何か。

+0

これは本当の質問ではありません。 – Gogol

+0

質問は良いですが、尋ねられる方法はあまり良くありません。私は編集しました。 – Nick

答えて

0

「PCNTL」は、Cに類似したプロセス関連の機能を持つ拡張機能であり、とりわけforkです。

良いチュートリアルがあるかどうかはわかりませんが、C/C++の例をチェックしてそのPHP関数の使い方を理解できます。

数年前、私たちはウェブクローラを行った。 forkの代わりに、クローラのインスタンスを100個同時に起動するシェルスクリプトを使用しました。

もう1つの方法はcurl-multiですが、もう一度十分な情報とチュートリアルはありません。私たちはそれを試みましたが、信頼性が高いとは思えませんでしたが、確認する必要があります。

もう1つの選択肢は、Pythonで行うことです - 多くの可能性を与えるいくつかの異なるプログラムライブラリがあります。

+0

あなたの応答と編集をお寄せいただきありがとうございます。私はあなたがanwerで言及したことを試してみます。おそらく、PHPがスパイダーのための最良の方法ではないので、私はそれを続けて研究します。 さらに、これはこのプラットフォームでの私の最初の質問です。私の英語は非常に貧しく、私は練習を続けます。 とにかくありがとう。 :) – Damon

+0

ここで私の答えを確認してください: http://serverfault.com/questions/326290/most-efficient-time-cost-way-to-scrape-5-million-web-pages/538958 – Nick

関連する問題