开放的编程资料库

当前位置:我爱分享网 > PHP教程 > 正文

使用 PHP 阅读 PDF 和 Word DOC 文件

我的一个客户在他们的网站上有大量的 PDF 和 Microsoft Word DOC 文件。它是他们在线服务的核心,所以它们不像是服务器上的垃圾文件。我的客户希望他们网站的搜索引擎 (Sphider) 能够读取这些 PDF 文件和 DOC 文件,这样他们的客户就可以找到他们需要的文档,而无需通过一堆摘要页面来获取它们。我成功完成了任务,所以让我向您展示如何使用 PHP 阅读 PDF 和 DOC 文件。

阅读PDF文件

要阅读 PDF 文件,您需要安装 XPDF 包,其中包括“pdftotext”。安装 XPDF/pdftotext 后,运行以下 PHP 语句来获取 PDF 文本:

$content = shell_exec('/usr/local/bin/pdftotext '.$filename.' -'); //dash at the end to output content

阅读DOC文件

与上面的 PDF 示例一样,您需要下载另一个包。这个包叫做 Antiword。下面是获取 Word DOC 内容的代码:

$content = shell_exec('/usr/local/bin/antiword '.$filename);

上面的代码不读取 DOCX 文件并且不(并且故意如此)保留格式。还有其他库会保留格式,但在我们的例子中,我们只想获取文本。

特别感谢 Jeremy Parrish 对这项任务的帮助和见解。

未经允许不得转载:我爱分享网 » 使用 PHP 阅读 PDF 和 Word DOC 文件

感觉很棒!可以赞赏支持我哟~

赞(0) 打赏