2016-11-27 8 views
-1

Pythonに文書を「読み込ませ」、不要な要素を除外して1と0の隣接行列を構築する方法はありますか?私は、インリンク、アウトリンク、ダングリング・ページ(検索から除外する必要がある)を備えた500ページのスプレッドシートを持っています。スプレッドシートからデータを読み込んで、Pythonで行列を構築する

私はこのようになり、粗擬似コードについて考えた:

for each visited page vp 
for each outlink of vp 
    if link relative 
    revolve link 
    if ink to visited page 
    write 1 
    else 
if link dangling 
    ignore it 
else 
    write 0 

は、それが何らかの形でのPythonの中にこのアイデアを実装することは可能ですか?またはMatlabまたはRを使用するとより便利でしょうか?クローラ結果に

リンク: http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.txt http://www.dcs.bbk.ac.uk/~martin/sewn/ls3/sewn_2016_labsheet_3_full_crawl.xlsx

答えて

1

、文書を「読み」のpythonを行い、不要な要素を排除し、1と0の隣接行列を構築する方法はありますか?

はい

は、開口部との文書を読んを開始するhttps://docs.python.org/2/tutorial/inputoutput.html

最も簡単な方法を参照してください。

f = open('workfile', 'r') 
fileLines = f.readlines() 

#do something with your lines 
#properly adapt your pseudocode to 
#the extracted data 

f.close() 

ご質問の残りの部分は適用範囲外です。

関連する問題