2016-07-01 18 views
0

多数のhtmlファイルを処理しようとすると問題が発生しました。各htmlファイルについて、特定の情報(最初の10行または20行のみ)をキャッチするには、readline()を使用する必要があります。当初はすべてが上手く見えましたが、数時間後には反応がありません。エラーは検出されませんでした。このプロセスを中断すると(control+C)、トレースバック情報は常にline=fRead.readline()です。助けることができる人はいますか?私は理解できません。readline()を使用するとエラーは検出されませんが、応答はありません

try: 
     fRead = urlopen(fileURL) 
     line = fRead.readline() 

     while not(line.startswith('</SEC-HEADER>')): 
      if line.startswith("FILED AS OF DATE:"): 
       date = line.split(':')[1].lstrip(' \t').rstrip('\n') 
      if "STANDARD INDUSTRIAL CLASSIFICATION:" in line: 
       if ']' in line: 
        SIC = line.split('[')[1].rstrip(']\n') 
       else: 
        SIC = line.split(':')[1].lstrip(' ').rstrip(']\n') 
      line = fRead.readline() 

Error description image

答えて

関連する問題