編集:私の質問を絞り込むために、私は答えが難しくなるように単純過ぎるかもしれません。もう一度試してみましょう。キー列、見出しの列、および身体コラム:私は3つの列にその情報を表しますcsvファイルに辞書を出力しているよリストを含む辞書をCSVにエクスポート
holder = {'key1':['headline1', 'body1'], 'key2':['headline2', 'body2']}
:辞書があると仮定します。下記の理由により、下記の答えでそれを試みることができませんでした。
これはもう少し明確です。
私はいくつかの中国語のニュースサイトを削り取り、結果をcsvファイルに出力しようとしています。スクレイピング後、辞書は構造化されています:
uniqueID : [headlines, body]
uniqueID1/headlines1/body1
uniqueID2/headlines2/body2
uniqueID3/headlines3/body3
を別の列のそれらのそれぞれに(できるだけ多くの行を持つので、基本的に3つの列私は物語を持っているとして):私は最終的に読み込み、CSVに出力するようにしようとしています。
私はthis questionからソリューションを使用してみましたが、(私は修正する方法を知っている)XとY軸を反転することに加えて、それはまた別のエントリに各見出し/物語の中で各文字を勃発し、文字を壊しましたエンコーディング。私はこれらの問題のいずれかを解決する方法を知らないので、私はちょっと立ち往生しています。
それが役に立つか関連している場合は、私は文字をこのようにエンコードしています:
head_fixed = str(headline)
soup = BeautifulSoup(head_fixed, 'lxml')
good_output = soup.text.decode("unicode-escape").encode("utf-8")
当然のことながら、私はまた、私はデータを構造化しています方法が間違っていることを示唆する開いています。
ありがとうございます。
コード全体または少なくともhttp://stackoverflow.com/help/mcveを表示できますか?誰もが自分のソリューションをテストすることは難しいし、それがなければ問題を本当に理解することも難しいです。 – Keatinge
質問があまりにも漠然としているので、私はこの話題を話題として閉じようとしています。 – martineau
ユニークなIDはどこから来ていますか?あなたはヘッドラインとストーリーのボディをどうやって取得していますか?あなたのcsvファイルの区切り文字を '/'で区切って考えるのはいい考えです。もし物語や本文にその文字があればどうでしょうか? – martineau