2
ファイルに含まれる日本語の単語のリストにbashを使用してwgetを実行するPythonスクリプトを作成しています。私はカールを使用するだけですが、これにはエンコードの問題がありました。 wgetコマンドを使えば、HTMLをダウンロードし、それはのような詩的なタイトルで、現在のディレクトリにそれをダンプします。私はそれが「出力/混合の.txt」のようなきれいな響きの場所にHTMLを置きたい日本語のエンコーディングでwgetを呼び出そうとしたときにPythonが異常に動作する
試%E8%A1%8C%E9%8C%AF誤
。これらのかなり響きのあるファイルを作成しますが、何も含まれていません。次のように
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import os
with open("words") as f:
for line in f:
text = unicode(line, "utf-8")
os.system("wget \'https://kotobank.jp/word/" + line.strip() + "'> output/" + line.strip() + ".txt")
#print("wget \'https://kotobank.jp/word/" + line.strip() + "'>> output/out.txt")
およびファイル "言葉" は次のとおりです。代わりに、出力をリダイレクトするの
追究
花器
陶磁器
枯渇
風合い
繊維
混合
アボード
受け継い
試行錯誤
硬質