0
多数のhtmlファイルを処理しようとすると問題が発生しました。各htmlファイルについて、特定の情報(最初の10行または20行のみ)をキャッチするには、readline()
を使用する必要があります。当初はすべてが上手く見えましたが、数時間後には反応がありません。エラーは検出されませんでした。このプロセスを中断すると(control+C)
、トレースバック情報は常にline=fRead.readline()
です。助けることができる人はいますか?私は理解できません。readline()を使用するとエラーは検出されませんが、応答はありません
try:
fRead = urlopen(fileURL)
line = fRead.readline()
while not(line.startswith('</SEC-HEADER>')):
if line.startswith("FILED AS OF DATE:"):
date = line.split(':')[1].lstrip(' \t').rstrip('\n')
if "STANDARD INDUSTRIAL CLASSIFICATION:" in line:
if ']' in line:
SIC = line.split('[')[1].rstrip(']\n')
else:
SIC = line.split(':')[1].lstrip(' ').rstrip(']\n')
line = fRead.readline()