PHPアプリケーションのRegexまたはXML解析を使用して、PDFファイルの「プロデューサ」メタデータにすばやくアクセスできますか?「PDFプロデューサ」またはPDFのソースアプリケーションを見つける
この技術は間違いがありません。目的はTeXを使用して作成されたPDFをアップロードするかどうかをユーザーに促すことです。
PHPアプリケーションのRegexまたはXML解析を使用して、PDFファイルの「プロデューサ」メタデータにすばやくアクセスできますか?「PDFプロデューサ」またはPDFのソースアプリケーションを見つける
この技術は間違いがありません。目的はTeXを使用して作成されたPDFをアップロードするかどうかをユーザーに促すことです。
プロデューサータグまたはクリエイタータグを検索することで値をハックすることはできますが、ASCIIコードではなくエンコードされている可能性があります。コマンドラインで
、次は、一致する行が出力されます。
$ strings my.pdf | grep TeX
Producer (pdfTeX-1.40.10)
/Creator (TeX)
/PTEX.Fullbanner (This is pdfTeX, Version 3.1415926-1.40.10-2.2 (TeX Live 2009) kpathsea version 5.0.0)
あなたはRead plain text from binary file with PHPを参照してください、PHPに似た何かをするかもしれません。
"/ Creator"の最初の4kのようなファイル内には既知の位置がありますか?これはファイルハンドルから読み取って行うことができますか? 200Mb + PDF上でfile_get_contents()を呼び出した結果はあまり良くありません。 –