2017-11-13 24 views
2

ファイルに含まれる日本語の単語のリストにbashを使用してwgetを実行するPythonスクリプトを作成しています。私はカールを使用するだけですが、これにはエンコードの問題がありました。 wgetコマンドを使えば、HTMLをダウンロードし、それはのような詩的なタイトルで、現在のディレクトリにそれをダンプします。私はそれが「出力/混合の.txt」のようなきれいな響きの場所にHTMLを置きたい日本語のエンコーディングでwgetを呼び出そうとしたときにPythonが異常に動作する

試%E8%A1%8C%E9%8C%AF誤 

。これらのかなり響きのあるファイルを作成しますが、何も含まれていません。次のように

#!/usr/bin/env python 
# -*- coding: utf-8 -*- 

import os 

with open("words") as f: 
    for line in f: 
     text = unicode(line, "utf-8") 
     os.system("wget \'https://kotobank.jp/word/" + line.strip() + "'> output/" + line.strip() + ".txt") 
     #print("wget \'https://kotobank.jp/word/" + line.strip() + "'>> output/out.txt") 

およびファイル "言葉" は次のとおりです。代わりに、出力をリダイレクトするの

追究 
花器 
陶磁器 
枯渇 
風合い 
繊維 
混合 
アボード 
受け継い 
試行錯誤 
硬質 

答えて

2

使用-O fileオプション:

os.system("wget \'https://kotobank.jp/word/" + line.strip() + "' -O " + line.strip() + ".txt" 

詳細については、wgetdocumentationを参照してください。