Pythonに文書を「読み込ませ」、不要な要素を除外して1と0の隣接行列を構築する方法はありますか?私は、インリンク、アウトリンク、ダングリング・ページ(検索から除外する必要がある)を備えた500ページのスプレッドシートを持っています。スプレッドシートからデータを読み込んで、Pythonで行列を構築する
私はこのようになり、粗擬似コードについて考えた:
for each visited page vp
for each outlink of vp
if link relative
revolve link
if ink to visited page
write 1
else
if link dangling
ignore it
else
write 0
は、それが何らかの形でのPythonの中にこのアイデアを実装することは可能ですか?またはMatlabまたはRを使用するとより便利でしょうか?クローラ結果に
リンク: http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.txt http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.xlsx