2011-02-06 7 views
1

Wordpressの投稿をソースとして使用するLaTeXのカスタムHTMLを作成しようとしています。PHPを使ってHTMLを別の構文(LaTeX)に変換する

基本的に、それはいくつかのように、 "交換" 実行する必要があります。どちらのアプローチ私が使用する必要があります。この

\begin{document} 

    \section{H2 Title} 

    Text text text 

    \shorthandoff{=} 
    \begin{figure}[H] 
    \centering 
    \includegraphics[scale=0.7]{./img/image.png} 
    \caption{Image ALT tag} 
    \end{figure} 
    \shorthandon{=} 

    \end{document} 

<h2>H2 Title</h2> 
<p>Text text text</p> 
<img src="/image.png" alt="Image ALT tag" \> 

を?このような置き換えを可能にするHTML DOMパーサ はありますか? ?または他の提案?

更新:をPHPのHTML DOMツリーに正しく歩かせる方法はありますか?私はRecursiveDOMIterator(http://stackoverflow.com/questions/4431142/loop-through-all-elements-of-body-tags-using-dom)を試みたが、私は成功した結果を得ることができない。

ありがとうございました。

+1

あなたは次を参照してください:http://html2latex.sourceforge.net/ – RobertPitt

答えて

1

PHP Simple HTML DOM Parserを試しましたか?具体的には、「DOMツリーをたどる方法」 manualのセクションがあなたが探しているものかもしれません。

0

投稿のHTMLの構造がどれほど複雑かに応じて、正規表現ベースの置換を使用できます(例のようにマークアップがかなり単純な場合)。複雑な構造(ネストされた要素)をLaTeXに複製する場合、正規表現は機能しない可能性があります。

+1

正規表現を使用してHazarのタスクに必要なHTMLの部分集合を解析することは可能ですが、依然としてお勧めできません。これは、属性を扱うときに素早く扱いにくくなり、LaTeXドキュメントを構築するために必要な木のようなデータ構造を与えません。 –

関連する問題