使用 C# 提取 PDF 文件中的所有文字（支持 .NET Core）

Zmoli775 · 发表于 2022-6-29 15:31:16

PDF 是 Portable Document Format 的简称，意为“可携带文档格式”，是由 Adobe Systems 用于与应用程序、操作系统、硬件无关的方式进行文件交换所发展出的文件格式。PDF 文件以 PostScript 语言图象模型为基础，无论在哪种打印机上都可保证精确的颜色和准确的打印效果，即 PDF 会忠实地再现原稿的每一个字符、颜色以及图象。

鉴于 PDF 文件格式比较复杂，一般通过第三方组件来对 PDF 进行操作，本文使用的是 itext7 。

官网：超链接登录可见。

NuGet：超链接登录可见。

通过 NuGet 引入 itext7 组件之后，可以使用以下代码提取 PDF 文件中的文字：

登录可见。

示例代码：

登录可见。

需要注意的是：如果你的 PDF 文件是基于图片的扫描版，那么本文的代码是无法提取到文字的，你需要的是 OCR 技术。

飞鱼 · 发表于 2022-6-30 21:35:46

学习学习。。

litterstar · 发表于 2022-7-28 09:00:24

学习一下

偷心无痕 · 发表于 2022-10-13 13:43:30

正式需要的,学习学习!~~~~~~``

mmxx0212 · 发表于 2022-10-14 09:37:59

使用 C# 提取 PDF 文件中的所有文字

		自动登录	找回密码
密码			注册[Register]

[控制台程序] 使用 C# 提取 PDF 文件中的所有文字（支持 .NET Core）