はい、リンクから外部のウェブサイトをクロールするためのボットを書くことは可能です。私は1つを作った。それは100K +ウェブサイトのURLをクロールしました。そう、はい、あなたのブログからのリンクをクロールできる1つを作ることは可能です。検索エンジンを作成するには
、あなたは彼らがどのように動作するかに関するいくつかの内部を知る必要があります...このような
検索ボット作品:
- クローラは、ページをフェッチします。この手順は、curlを使用するので、非常に簡単です。
パーサーは、HTMLを分割してページからデータを抽出することができます。これには2つのサブコンポーネントがあります。このサブコンポーネントは2つあります。
a。 &をキャプチャしたいページから任意のデータを抽出し、そのデータをデータベースに保存します。
b。 &のリンクを抽出して、それらをクロールキューに戻します。 (他人の不正な形式のURLがたくさん起こっている、それをクラッシュしない限りますので、頻繁にそれを修正する準備ができて。)...これは無限ループを作成しますので、あなたのボットはクロールを停止することはありません
インデクサは、検索インデックスを作成しますウェブページのコンテンツにキーワードをマップします。これには2つのサブコンポーネントがあり、それは...
a。 Forward Indexを作成し、各文書をその文書の内部にあるキーワードにマップします。
doc1 | bird, aviary, robin, dove, blue jay, cardinal
doc2 | birds, bird watching, binoculars
doc3 | cats, eat, birds
doc4 | cats, generally, don't, like, water, nor, neighborhood, dogs
doc5 | dog, shows, look, fun
b。フォワードインデックスからインデックスを逆にするInverted Indexを作成します。これにより、ユーザはキーワード&で検索することができ、検索スクリプトは、ユーザが閲覧したい文書を示唆する&を検索します。
- 検索フォームユーザーにHTMLの入力ボックスを示していますので、同じように...
bird | doc1, doc2
cat | doc3, doc4
dog | doc4, doc5
検索は、このような作業はフォーム。
- 検索スクリプトは、反転インデックスを検索して、検索エンジンの結果ページに表示するドキュメントリンクを検索します。
- S earchがE ngine R esults P年齢(はい、SERPは検索エンジンの検索結果ページの実際の業界の頭字語です)。検索結果リンクの一覧が表示されます。 &は、Googleの、MicrosoftのBingやYahooのエンジンのように見える必要はありません。
例:ブログの検索エンジンを構築する
"bird" returns links to "doc1, doc2"
"cat" returns links to "doc3, doc4"
"dog" returns links to "doc4, doc5"
幸運:
が探し!
あなたのQを編集して、1つの長い実行文として読み込まないようにしてください。また、頭字語のGCSEは何ですか?私は頭字語を以前見たことがありません。 – Clomp