2012-03-27 9 views
2

私はhttp://en.wikipedia.org/wiki/PageRankで説明を読んでおり、ページランクは着信リンクと発信リンクによって計算されることを理解しています。ページランクはリアルタイムでどのように計算されるのですか

私はWebページをクロールしている間にクローラを持っており、dbに格納するにはページランクアルゴリズムが必要です。 私は、次の値

Title 
url 
content_html 
outgoing_links(external domain) 
internal_links(the links with same domain of the url) 

とデシベルを持っているuは説明してくださいすることができ、私はページランクを計算するために他の値を必要とします。あなたは、線形代数や固有値問題を知らない、またはされないならば

http://www.rose-hulman.edu/~bryan/googleFinalVersionFixed.pdf

+0

あなたはどこまで行きたいですか? Googleの実際のページランクアルゴリズムについて言えば、はるかに複雑で、そのほとんどは完全に秘密です。ちょうど始めに、Googleはドメイン名の年齢とコンテンツが更新される頻度を考慮に入れます。それでは、どのようにスパマーに対処するつもりですか? Googleは定期的にスパムやファーム全体をインデックスから削除しています。これは非常に複雑なトピックで、*ページランクを計算できるような魔法の式が1つもないため、「計算方法」を説明するのは難しいです... – TacticalCoder

答えて

1

いくつかの選択肢があります。 duffymoのソリューションは完璧ですが、既存のライブラリを使用したい場合は、グラフ用にJungのようなものをお勧めします。

よく知っている人は、graphsに精通していますが、リンクの構造を保存するために使用でき、多くのライブラリにページランクが含まれていることはよくありません。どのようにしたいかによって、メモリソリューションの良い点はJungですが、永続的なデータベースストレージが必要な場合は、Neo4Jにデータをロードするよりも、ページャクを行うにはgremlinをインストールする必要があります。

上記はJavaソリューションですが、自分でやりたいのであれば(乾いた研究論文が好きではないのですが)、私は書籍プログラミングの集団知能を強く勧めます。それらは通過します(第4章は思います)。クリックを監視するページランクとニューラルネットワークを含むゼロから検索エンジンを作成します。上の要件に基づいて唯一の問題は、本はPythonで書かれていますが、あなたは簡単にJavaにロジックを適用することができます。既にPythonのことを少し知っていれば、書籍のソースコードを無料でダウンロードしてソフトウェアをチェックすることもできます(ただし、ソースコードのコードの裏にある数学についての説明はありません)。

希望があれば

+0

私はあなたの答えに矛盾しています。私が引用した論文は「乾燥」していません。それを読んで見てください。しかし、私は「プログラミング集団知能」が大好きです。私は多くの魂の検索の後であなたに投票します。 – duffymo

+0

@duffymo申し訳ありませんが、私は攻撃的な方法でそれを意味しませんでした(実際に私はあなたの特定の論文を参照していませんでした、それは一般的でした)。私は個人的には5ページ以上の紙を見つけ、漫画は退屈です。私はその声明が私の知性を反映していると思うので、私は集団知性に頼っている傾向があります:-) – Lostsoul

+0

実際に私は今まで私がこの論文を読んだことに気付きました。私はそれを終了しなかった(漫画やノックノックジョークの欠如)が、あなたの権利は本当に良いと私は自分自身のページャーをしようとしたときに私を助けた。私は、たとえ外部ライブラリを使用していたとしても、ページランクの勇気について学ぶのは良いことだと思います。良い投稿+1 – Lostsoul

1

のPageRankは、その中心に、線形代数の固有値問題であるJavaを使用して、それを計算する方法を説明してくださいこの文書を読もうと思えば、あなたはこの問題に取り組むことはできません。アインシュタインが言ったように、「できるだけシンプルに問題を解決する...」

紙のタイトルは古いです。それは2004年のGoogleの時価総額を指します。今朝は最高$ 211Bです。

この技術はすべての時点でまだ立っていません。 Googleは独自の方法でアルゴリズムを調整し続けている。しかし、この論文では、その心臓部について説明しています。

関連する問題