我的一个客户在他们的网站上有大量的 PDF 和 Microsoft Word DOC 文件。它是他们在线服务的核心,所以它们不像是服务器上的垃圾文件。我的客户希望他们网站的搜索引擎 (Sphider) 能够读取这些 PDF 文件和 DOC 文件,这样他们的客户就可以找到他们需要的文档,而无需通过一堆摘要页面来获取它们。我成功完成了任务,所以让我向您展示如何使用 PHP 阅读 PDF 和 DOC 文件。
阅读PDF文件
要阅读 PDF 文件,您需要安装 XPDF 包,其中包括“pdftotext”。安装 XPDF/pdftotext 后,运行以下 PHP 语句来获取 PDF 文本:
$content = shell_exec('/usr/local/bin/pdftotext '.$filename.' -'); //dash at the end to output content
阅读DOC文件
与上面的 PDF 示例一样,您需要下载另一个包。这个包叫做 Antiword。下面是获取 Word DOC 内容的代码:
$content = shell_exec('/usr/local/bin/antiword '.$filename);
上面的代码不读取 DOCX 文件并且不(并且故意如此)保留格式。还有其他库会保留格式,但在我们的例子中,我们只想获取文本。
特别感谢 Jeremy Parrish 对这项任务的帮助和见解。