一部のユーザーがMicrosoft Word文書をアップロードできるサイトを作成した後、他のユーザーが特定のキーワードを含むアップロードされた文書を検索できるサイトの作成について質問されました。このサイトは、PHPとMySQLを実行しているLinuxサーバーに座っているだろう。私は現在、文書からこのテキストを掻き取ることができるかどうか、どのように掻くことができるかを調べようとしています。もし誰かがこれをやり遂げる良い方法を示唆することができれば、それは非常に高く評価されるだろう。ここでLinuxサーバでMS Word文書のテキストを傷つけるにはどうしたらいいですか?
答えて
はcatdocを使用して良い例です:新しいDOCX形式からテキストを削れ
function catdoc_string($str)
{
// requires catdoc
// write to temp file
$tmpfname = tempnam ('/tmp','doc');
$handle = fopen($tmpfname,'w');
fwrite($handle,$a);
fclose($handle);
// run catdoc
$ret = shell_exec('catdoc -ab '.escapeshellarg($tmpfname) .' 2>&1');
// remove temp file
unlink($tmpfname);
if (preg_match('/^sh: line 1: catdoc/i',$ret)) {
return false;
}
return trim($ret);
}
function catdoc_file($fname)
{
// requires catdoc
// run catdoc
$ret = shell_exec('catdoc -ab '.escapeshellarg($fname) .' 2>&1');
if (preg_match('/^sh: line 1: catdoc/i',$ret)) {
return false;
}
return trim($ret);
}
それはトリックを行うことができるように見えるクール。私はそれを調べます。ありがとう –
は自明です。ファイルそのものはzipファイルであり、内部を見ると、たくさんのxmlファイルが見つかります。テキストはこのzipファイル内のword/document.xmlに含まれており、実際にユーザーが入力したすべてのテキストは< w:t >タグに表示されます。 < w:t >タグに表示されているすべてのテキストを抽出すると、文書をスクラップしたことになります。
docxについての説明をありがとう。 catdocはdocxファイルでは動作しませんので、私はそのコンボを使用しています。あなたが言ったことをやっている小さなバッシュをここで見つけます:http://stackoverflow.com/questions/1184747/rtf-doc-docx-text-プログラム内での抽出-c-qt –
このような単純なスクリプトをXMLの解析に使用することには注意が必要です。XMLの解析は非常に簡単ですが、bashスクリプトまたは正規表現を使用すると、 (何らかの理由で)wタグで奇妙なものが浮かんでいる。 – ZoFreX
- 1. LinuxサーバでMS-Word文書を作成および編集するには?
- 2. Word文書からNeo4jにテキストをインポートするにはどうしたらいいですか?
- 3. MS Wordアドインボタンを削除するにはどうしたらいいですか?
- 4. MS Word VbaコマンドボタンWord文書にテキストを挿入する
- 5. Androidスタジオがテキストから傷ついた
- 6. MS WordのMS Word文書をC#Windowsフォームから開く
- 7. テキストが傷つけ
- 8. docx4jを使ってファイルをMS Word文書に添付するにはどうすればいいですか?
- 9. MS Wordで縦書きテキストを開く
- 10. サーバに保存されているMS Wordの文書を開く
- 11. テキストマイニングMS Word文書?
- 12. Coverting MS Word文書は
- 13. マルチキャストを聞いて私を傷つけるのはどうですか?
- 14. Word文書(phpword)にキリル文字を貼り付けるにはどうすればいいですか?
- 15. 複数のMS Word開いている文書間のテキストを比較
- 16. Djangoでsettings.pyを使用してms SQLサーバに接続するにはどうしたらいいですか?
- 17. Java:ファイルの正しいMS Word文書はどのようにチェックできますか?
- 18. MS Wordどのように隠しテキストを選択する
- 19. TinyMCEテキストと画像をMS Wordからコピーできない
- 20. NodeJSで書かれたMSテキストボットプログラムをskype botに統合するにはどうしたらいいですか?
- 21. MS Word文書に結合する
- 22. WordからMathematicaに貼り付けてキャリッジリターンを維持するにはどうしたらいいですか?
- 23. Word文書からRTF/HTMLテキストを抽出するには?
- 24. XPageのLotus Notes文書に添付されているMS Wordからフィールド値を読み取るにはどうすればいいですか
- 25. C#からWord文書のファイル名を取得するにはどうすればよいですか?
- 26. MS Wordの表のセルでテキストの太字部分を太字にするにはどうしたらいいですか?
- 27. XMLソースコメントをテキスト文書に自動的にエクスポートするにはどうしたらいいですか?
- 28. テキストをWord文書からJavaテキストコンポーネントにドラッグしますか?
- 29. .NETライブラリMS Word文書をXPS文書に変換する
- 30. MSビジュアルスタジオでSmalltalkをサポートするにはどうしたらいいですか?
どのバージョンのWord?古い.DOC形式または新しいXMLベースの形式、あるいはその両方?あなたのサーバでヘッドレスOpenOfficeインスタンスを使用するのはオプションですか? –
理想的には、ユーザーがそれを掴むものであればどんなものでも処理できるはずです。私は過去にOOoを使用して、ドキュメントをHTMLに変換しました。それは良い選択です。私の主な心配は、サーバスクリプトから呼び出すことはあまりにも多くのリソースを使い切ることです。 –