2009-04-17 8 views
22

私のウェブサイトに要約を表示するには、マークダウンテキストをプレーンテキスト形式に変換する必要があります。 Pythonでコードを欲しいです。Python:フォーマットされたテキストをテキストに変換する方法

+1

Pythonではありませんが、pandocに渡すことができます: 'pandoc --to = plain'はいくつかの書式設定(ヘッダ行の間違い)を残します。 – naught101

答えて

36

このモジュールは、あなたが記述何をするのに役立ちます。

http://www.freewisdom.org/projects/python-markdown/Using_as_a_Module

あなたがHTMLに値下げを変換したら、あなたはプレーンテキストを取り除くためにHTMLパーサーを使用することができます。

あなたのコードは次のようになります:

from BeautifulSoup import BeautifulSoup 
from markdown import markdown 

html = markdown(some_html_string) 
text = ''.join(BeautifulSoup(html).findAll(text=True)) 
+1

htmlに変換されたようです...私はプレーンテキストに変換する必要があります..ホームページの質問の要約では、書式設定を削除します – Krish

+0

プレーンテキストを取得するために私の答えを更新しました –

+0

ありがとうございます。 BeatifulSoupについて – Krish

2

はコメントし、それを削除し、私は最終的に私はここにこするを参照してくださいと思うので:HTMLにあなたの値下げテキストを変換し、テキストからHTMLを削除する方が簡単な場合があり。私はテキストからマークダウンを効果的に取り除くことは何も認識していませんが、プレーンテキストのソリューションには多くのHTMLがあります。

関連する問題