robots.txt値の各値を配列に格納するにはどうすればよいでしょうか?例:ウェブサイトには、次のようなrobots.txtがあります。各robots.txt値を配列に格納する
# Comment
Disallow: /link1
Disallow: /abcdefg
Disallow: /fish
Disallow: /salad
コメントをスキップしてから、そのテキストを配列に格納します。だからあなたは文句を言わない「禁止:/リンク1」である値を持っている。ここ
が、それは「/リンク1」として格納されます
(いくつかは知っているかもしれチュートリアルから)私のコードです:import urllib.request
import io
def get_robots_txt(url):
if url.endswith('/'):
path = url
else:
path = url + '/'
req = urllib.request.urlopen(path + 'robots.txt', data=None)
data = io.TextIOWrapper(req, encoding='utf-8')
return data.read()
print(get_robots_txt('http://www.stackoverflow.com'))
input()
上記の基本的robots.txtに入ったときにURLを取得してrobots.txt内のすべてを保存し、ウェブサイトに表示されるように印刷します。私が必要としているのは、それを無視した後のテキストを配列に格納するだけなので、コメント(最初の行をスキップする)を無視し、3番目の "Disallow:"を切り捨て、 "/ link1"をアレイ。これは、各行の後にこれを行うでしょう、そして、私は["/ link1"、 "/ abcdefg"、 "/ fish"、 "/ salad"]のような配列を持っています。これは特定ですが、このようなことをやり始めましょう。おかげですべて
http://idownvotedbecau.se/noattempt/ –