2012-12-18 11 views
5

特定のWebサイトからテキスト、画像、LaTeX方程式を導出できるため、オブジェクトをぼかさずに直接PD​​Fをカスタマイズできますか?画像のみが固定解像度になります。Webサイトからテキスト、画像、LaTeX方程式を導出する

私は、間接的にPDFを生成する方法がいくつかあることを認識しています。たとえば、Riemann Zeta FunctionのWolfram MathWorldからPDFをレンダリングしようとすると、Chromeで印刷してPDFとして保存することができますが、もっとズームインすると、LaTeXの方程式とテキストが自然にぼやけてしまいます。私は "WolframのCDFプレーヤー"をダウンロードしようとしましたが、Wolfram MathWorldが提供する有用な説明ではなく、Mathematicaのライブラリの構文しか含まれていません。テキスト、画像、LaTeXの方程式を、ぼやけたPDFファイルに抽出するためには、何が必要でしょうか?

+0

ここで質問をお試しください。http://mathematica.stackexchange.com –

答えて

1

あなたの質問から明らかではない方法でイメージを生成するために使用されたLaTeXソースにアクセスできない場合、答えは "できません"です。カスケードされたWebサイトのリンクは、方程式を生成するために使用されるLaTeXがすぐに利用できないことを意味します(おそらく、Webサーバーに置かれるイメージを生成するバックエンドシステムにあります)。

ブラウザには、単なる画像です。画像がどのように生成されたかは、Webページにどのように表示されるのか、PDFでどのように表示されるのか(つまり、必要以上にピクセル化されているか)は関係ありません。

ウェブサイトでPNGやJPEGのようなピクセルベースの形式ではなくSVGのようなベクターグラフィックス形式を使用すると、それらはPDFにすばやく変換され、うまくズームされます。これは問題のサイトのウェブマスターが行う選択です。

1

ソースを調べると、各方程式を描いたgifには、それらをレンダリングするLaTeXに近いaltテキストがあることがわかります(Mathematicaコードかもしれません - 私はWolframのツールに慣れていません)。妥当な情報源を抽出することは不可能ではないが、難しいだろう。サイトはテーブルでレイアウトされているので、beautiful soupのようなものでもHTMLを解析するのは難しいことがあります。いくつかの方程式は別々のgifに分割されているため、解析するのがさらに手間がかかります。またaltテキストがLaTeXに変換されているものから変換する必要があります。

何百ものページを作成する必要がない場合は、テキストをコピーして貼り付け、画像を保存し、各画像のaltテキストを取得して自分で変換することをおすすめします。

0

この例では、そのページのMathematicaノートブックをダウンロードできます。おそらくそれから何かを解析することは可能です。

関連する問題