使用C#操作PDF：创建、读取文本和提取图片

RAR文件

5星 · 超过95%的资源 | 下载需积分: 34 | 7.68MB | 更新于2025-02-12 | 35 浏览量 | 举报 2 收藏

立即下载

在当今的IT领域中，C#作为一种流行的编程语言，经常用于开发各种应用程序，包括处理PDF文件的任务。本文将详细介绍如何使用C#生成PDF文件、向PDF添加文本和图片、以及读取PDF中的文本内容和图片。 ### C#生成PDF C#生成PDF文件可以通过多种第三方库实现，例如iTextSharp、PdfSharp、PdfiumViewer、PdfiumAndroid等。以下将介绍使用iTextSharp进行PDF生成的过程： 1. **添加iTextSharp库引用** - 在项目中引入iTextSharp库，可以通过NuGet包管理器安装。 2. **创建PDF文档** - 使用`Document`类实例化一个新的PDF文档对象。 - 设置文档属性，例如页面大小、页边距等。 3. **写入内容** - 创建`PdfWriter`实例，并将其与`Document`对象关联。 - 使用`PdfContentByte`类添加文本、图像和其他PDF内容。 4. **关闭文档** - 完成所有内容写入后，关闭`Document`对象以生成PDF文件。 ### 向PDF添加文本和图片 1. **添加文本** - 使用`PdfWriter`实例创建`Document`。 - 通过`Chunk`、`Paragraph`和`Table`等类，将文本内容添加到PDF中。 2. **添加图片** - 使用`Image`类加载图片。 - 将图片添加到PDF页面中。 3. **控制图片位置和大小** - 使用`PdfContentByte`类的方法来设置图片的位置和大小。 ### 读取PDF文本内容 1. **使用iTextSharp读取文本** - 再次使用`PdfReader`类读取PDF文件。 - 遍历PDF的每一页，使用`PdfTextExtractor`类提取文本。 2. **文本提取方法** - 可以使用`GetTextFromPage`方法来获取单页的文本内容。 - 对于整个文档，可以遍历所有页面并逐页提取。 ### 获取PDF内图片 1. **遍历PDF页面** - 利用`PdfReader`遍历PDF的每一页。 2. **解析图片** - 对于每一页，使用`PdfReader`获取页面资源。 - 在页面资源中查找图片对象，通常是`PdfStream`对象。 - 从找到的`PdfStream`对象中解析出图片数据。 ### 代码示例以下是一个简化的代码示例，演示如何使用C#和iTextSharp库生成PDF文件： ```csharp using iTextSharp.text; using iTextSharp.text.pdf; public void GeneratePDF(string filePath) { Document document = new Document(PageSize.A4, 36, 36, 54, 36); PdfWriter.GetInstance(document, new FileStream(filePath, FileMode.Create)); document.Open(); Paragraph p = new Paragraph("这里是文本内容"); document.Add(p); Image img = Image.GetInstance("path_to_image.jpg"); img.ScaleToFit(100, 100); document.Add(img); document.Close(); } ``` 而读取PDF文本内容和图片的代码可以参考： ```csharp using iTextSharp.text.pdf; using iTextSharp.text; using System.IO; public void ReadPDF(string filePath) { using (PdfReader reader = new PdfReader(filePath)) { for (int i = 1; i <= reader.NumberOfPages; i++) { // 读取文本 string text = PdfTextExtractor.GetTextFromPage(reader, i); Console.WriteLine(text); // 获取图片 PdfDictionary page = reader.GetPageN(i); PdfDictionary resources = page.GetAsDict(PdfName.RESOURCES); PdfDictionary xobjects = resources.GetAsDict(PdfName.XOBJECT); foreach (KeyValuePair<PdfName, PdfObject> entry in xobjects) { PdfDictionary xobject = entry.Value as PdfDictionary; if (xobject != null && PdfName.IMAGE.Equals(xobject.GetAsName(PdfName.SUBTYPE))) { PdfStream stream = (PdfStream)xobject.GetAsStream(PdfName.FILM); // 这里可以进一步处理图片流，例如保存图片到文件 } } } } } ``` ### 总结在本文中，我们介绍了使用C#和第三方库（如iTextSharp）来生成PDF文件、添加内容（文本和图片）、以及读取PDF文件中文本内容和图片的过程。需要注意的是，操作PDF文件涉及到复杂的文档结构解析，因此使用成熟的库可以大大简化开发过程，同时提供更稳定的解决方案。在选择库时，也应考虑到兼容性和许可协议等问题。掌握这些知识点，对于开发需要处理PDF文件的C#应用程序来说是非常重要的。

资源目录

收起资源包目录

使用C#操作PDF：创建、读取文本和提取图片（35个子文件）

Settings.settings 249B

Program.cs 519B

ReadPDF.csproj.FileListAbsolute.txt 1008B

ReadPDF.pdb 24KB

ReadPDF.csproj 4KB

Form1.resx 6KB

TemporaryGeneratedFile_036C0B5B-1481-4323-8D20-8F5ADCB23D92.cs 0B

aa.pdf 175KB

TemporaryGeneratedFile_5937a670-0e60-4077-877b-f7221da3dda1.cs 0B

App.config 189B

TemporaryGeneratedFile_E7A71F73-0F8D-4B9B-B56E-8E70B10BC5D3.cs 0B

CoreCompileInputs.cache 42B

ReadPDF.exe 13KB

Spire.Pdf.dll 11.58MB

ReadPDF.pdb 24KB

sample.pdf 321KB

Resources.resx 5KB

ReadPDF.csprojResolveAssemblyReference.cache 22KB

Image-0.png 1.07MB

Form1.cs 5KB

itextsharp.dll 3.87MB

Microsoft.mshtml.dll 7.66MB

TextInPdf.txt 41B

ReadPDF.csproj.GenerateResource.Cache 1012B

Resources.Designer.cs 3KB

AssemblyInfo.cs 1KB

Settings.Designer.cs 1KB

ReadPDF.exe 13KB

ReadPDF.Properties.Resources.resources 180B

ff.jpg 207KB

ReadPDF.Form1.resources 180B

Form1.Designer.cs 6KB

DesignTimeResolveAssemblyReferencesInput.cache 7KB

ReadPDF.exe.config 189B

Spire.License.dll 43KB

共 35 条

王-大米

粉丝: 8

使用C#操作PDF：创建、读取文本和提取图片

c#读取pdf中文本内容

c# Winform 读取PDF文件

CSharp（C#）编程思想PDF,非常简明基础的程序，很适合初学者

C#生成PDF 读取PDF文本内容 获取PDF内图片2019

C#生成PDF 读取PDF文本内容 获取PDF内图片201902

C#生成PDF 读取PDF文本内容 获取PDF内图片.rar

C#生成PDF 读取PDF文本内容 获取PDF内图片(201903)

C#生成PDF 读取PDF文本内容 获取PDF内图片.rar_.net_C# pdf_C#PDF_pdf_winform

C#生成PDF 读取PDF文本内容 获取PDF内图片.rar.rar

C#生成PDF 读取PDF文本内容 获取PDF内图片_0520.rar

最新资源

C#生成PDF 读取PDF文本内容获取PDF内图片2019

C#生成PDF 读取PDF文本内容获取PDF内图片201902

C#生成PDF 读取PDF文本内容获取PDF内图片.rar

C#生成PDF 读取PDF文本内容获取PDF内图片(201903)

C#生成PDF 读取PDF文本内容获取PDF内图片.rar_.net_C# pdf_C#PDF_pdf_winform

C#生成PDF 读取PDF文本内容获取PDF内图片.rar.rar

C#生成PDF 读取PDF文本内容获取PDF内图片_0520.rar