当前位置：我爱分享网 > PHP教程 > 正文

使用 PHP 阅读 PDF 和 Word DOC 文件

2023-01-28 分类：PHP教程作者：5afxw 阅读（*）

我的一个客户在他们的网站上有大量的 PDF 和 Microsoft Word DOC 文件。它是他们在线服务的核心，所以它们不像是服务器上的垃圾文件。我的客户希望他们网站的搜索引擎 (Sphider) 能够读取这些 PDF 文件和 DOC 文件，这样他们的客户就可以找到他们需要的文档，而无需通过一堆摘要页面来获取它们。我成功完成了任务，所以让我向您展示如何使用 PHP 阅读 PDF 和 DOC 文件。

阅读PDF文件

要阅读 PDF 文件，您需要安装 XPDF 包，其中包括“pdftotext”。安装 XPDF/pdftotext 后，运行以下 PHP 语句来获取 PDF 文本：

$content = shell_exec('/usr/local/bin/pdftotext '.$filename.' -'); //dash at the end to output content

阅读DOC文件

与上面的 PDF 示例一样，您需要下载另一个包。这个包叫做 Antiword。下面是获取 Word DOC 内容的代码：

$content = shell_exec('/usr/local/bin/antiword '.$filename);

上面的代码不读取 DOCX 文件并且不（并且故意如此）保留格式。还有其他库会保留格式，但在我们的例子中，我们只想获取文本。

特别感谢 Jeremy Parrish 对这项任务的帮助和见解。

未经允许不得转载：我爱分享网 » 使用 PHP 阅读 PDF 和 Word DOC 文件

感觉很棒！可以赞赏支持我哟~

赞(0) 打赏

相关推荐

回顶
回顶部