サービス用のクローラを作成しました。ウェブサイト内の地域やコミュニティを自動的に検出したいと思います。私は、href(:LinksTo
)の場合にURLが別のURLにリンクするモデルを作った。バックリンクがあるときは、:Connected
という余分な関係も作成します。Neo4jに格納されたWebグラフでコミュニティを検出する方法
私は、どのコミュニティが存在し、どの程度大きいのかを知りたいと思います。問題は、私は1つの巨大なコミュニティと少数の小さなコミュニティで結ばれ続けることです。私はここにこだわっています。
私はこれらのアルゴリズムをインストールしました:https://neo4j-contrib.github.io/neo4j-graph-algorithms/と私は三角の数とclustercoefficientで何かしようとしましたが、ノードの良いパーティションを作成することは不可能です。
誰かアイデア?
私はこの時点でオーバーラップを見つけようとしています。 fromノード - from:〜〜:linksto〜〜to〜〜の部分が(somenode) - [:linksto]〜(to)と重なっている場合、最初のものはhome-somenode-fromの階層の一部になると思います。私はすでに(子:Url) - [:linksTo] - >(深い:Url)< - [:Linksto] - (:親)WHERE child.outGoing