2011-06-28 10 views
0

私はこのコードを使用してPDFファイルからテキストを取得しようとしていますが、それはエンコードされたテキスト以下のように返します -読み取りとpdfファイルでの検索

$fp = fopen($filename, "r"); 
echo $content = fread($fp, filesize($filename)); 
fclose($fp); 

 

%PDF-1.3 3 0 obj <> endobj 4 0 obj <> stream xœí\Ks¹¾ûWàâ*¹<„ñ~ø*¯½›ÊVíf«*‡(ZIÌRyHZÑ¿O÷ŠIKŪØ&9 h|Sn“TÑâ©mÐÚ å 6¨Mxø´Ê“üú•wÔ:,WP¥ˆqžzN~ƒÇ)¹zõ¯CF{Wê?¿ß$èQ‡šQ†J_`ù-ÏF‹Ë99NOsòeqw7y ðíÕx’’‹3ò™ãœ\¼YA½ÖG%°Ãå¶QO ³R𯌩8U %æåG]MÀ¥J'{±¢C¾®ÃõÂ÷^S8oQgœxΧÖÊø5›§ï×ÕÙZ‚ðÔ6K ç[email protected]‘ñõ"OgdtÎHvE$ü2Ì/oŠ.£]t~ˆ‚9vêPeb훆LLˆê³ž{ÖvÆ{OYEò”|J'ãïiþcø2ËGØ+sè«;ø5§×äÛb˜Ïa¨]œñÙœ|&ØUo6Ø”¶j¥TóF½ûsIzJÞürl¯w$Kgr­tÑAÄ9&› ÚÒƒ`T¼bÐŒÜ9ü<œÃ8úÀ¿ÇáÈ÷t6K'3¤Oâ¹HŒàdt?Ío†óRlvy“Ž“tDæùš’QÉIø}<%KÖ‘¯‹9ɦ`ïW)°Ó Ì(¢hº›&XÂtÝ°¢M—Ùôjœß–mº~O¡aé4hÚþV ¨`ºOÏáŽ=­Àªœˆ·Ùôúâþf|yó>>wð„7ÊzCßçXì¨Lð•´.ð)E'fœMgµ&jN•.\8A ÅѵÚGÉZPaÃ:úâØþø˜¡Þ”uˆ,‡Ì·ãépæë¹]Ìà ^çiz›Nç4f&`–jÓ¨å™ÓèùÚÎ)*ÊIûimãWÜ#©v‘ŒGs*ÃJNÎxg &b5ã¹+)Ÿ§ù,Oo‡ãé&Ip­Ši,‚ó²Øf='Ǩ¡ƒ1ª•ˆ@%`&Àž J>9*ˆ¹5ì9rñÈ:(Š#yŸ¹yê¨Y®¨S…>ŒFcœäÀâWQÆxmøsI­÷ž9ü½¡Î‡ÕœDš-tM"[û†²rkïÆ“IßÌÈUžÝbLõ}œ-fuHõî!æQS`¹üÖû2 [Ш.—(~ÀXø6›”ÅÀ£K¼­óŒÆ5Ä ÆÿÓH¶ã`ƒÙÂUó¼%+Ë€ÃÛl1c7áæš%¼èOÿ<¯ÃË|xwV}´ÈQ&ˆ(ózx––ïâ²çëzäj’¦sj:U37‹«V0*y£Ù/cõ°±*9åÔú‘’ŸÊþY_FŒš³ÝJÁÏ}Î~Î…ßȵož)š—Bÿ…ÆN>œ[ê`ÖfŽê57sËËågÙмڑÔø°$o&D¬XL³æèö<®Äµ‚9¶ÏÌ=n(6*ÿt?J%‚Ip¥B‹~q6ýø^·_ÓÍ:‹òµ„¬MKGŠÍ‰ñ‚ú5/=’2žj–ô– 

私は見当がつかないテキストを取得してテキストをユーザー入力と照合するにはどうすればよいですか?

おかげでたくさん...

+0

あなたのPDFには何が含まれているのかわかりませんが、その人にそのデータを持たせたくない場合は、上記の例を取り消すことがあります(%PDFで始まる)。 – zsalzbank

+0

pdfにはテキスト、画像、グラフなどがあります。 – Bajrang

+1

あなたが示したコードは、MP3ファイルをメモ帳に開くのと同じです – Sourav

答えて

0

を試しています、フォントなど)。圧縮はオプションです。 PDFからテキスト文字列を取り出そうとする際の主な問題は、変換中にテキスト構造が維持されているかどうかわからないことです。いくつかのプログラムは、言葉/文章を文字列として維持するのに良い仕事をしますが、PDFソースの生のテキストを読むことができないような方法で物事を壊すかもしれません。この場合、ソースドキュメントとPDFレンダリングアプリケーションは重要です。

PDFからテキストを解析する前に、quick look around the webとしてください。経験を必要としない限り、ホイールを再構築する必要はありません。

関連する問題