介绍

处理 PDF 文件时,提取高亮文本对于数据分析、内容审查或整理笔记至关重要。如果您使用 Aspose.PDF for .NET,那么您很幸运。本教程将提供清晰的分步说明,帮助您高效地从 PDF 文档中提取高亮文本。

先决条件

在开始之前,请确保已准备好以下事项:

  • Aspose.PDF for .NET Library:从 发布页面.
  • 开发环境:类似 Visual Studio 的工作环境。
  • C# 基础知识:必须熟悉 C# 和面向对象编程。
  • Aspose 许可证:虽然您可以先免费试用,但 临时执照 或完整许可证 这里 将提供不受限制的访问。

导入必要的命名空间

首先在 C# 项目中导入所需的命名空间:

using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

这些命名空间提供处理 PDF 文档和注释所需的类和方法的访问。

步骤 1:设置项目目录

指定 PDF 文件所在的目录:

// 文档目录的路径。
string dataDir = "YOUR DOCUMENT DIRECTORY";

确保用 PDF 文件的实际目录替换路径。

第 2 步:加载 PDF 文档

使用以下代码加载PDF文档:

Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

确保指定的文件存在于给定的目录中。

步骤 3:访问页面上的注释

要访问注释,请循环遍历所需页面(在本例中为第一页)上的注释:

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
    if (annotation is TextMarkupAnnotation)
    {
        TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;

此代码过滤 TextMarkupAnnotation 类型,代表亮点。

步骤 4:提取突出显示的文本

现在,从突出显示的注释中提取并显示文本:

        TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
        foreach (TextFragment tf in collection)
        {
            Console.WriteLine(tf.Text);
        }
    }
}

这将检索与突出显示相关的所有标记文本片段并将其打印到控制台。

结论

使用 Aspose.PDF for .NET 从 PDF 中提取高亮文本非常简单,并且可以显著增强您的文档处理流程。按照上述步骤,您可以高效地收集高亮文本,用于各种应用程序,例如报告准备或数据分析。

常见问题解答

我可以提取其他类型的注释吗?

是的,只需调整 if 条件包括不同的注释类型,如 TextAnnotation 或者 StampAnnotation

如何从所有 PDF 页面中提取突出显示的文本?

您可以使用以下方法循环遍历所有页面:

for (int i = 1; i <= doc.Pages.Count; i++)
{
    foreach (Annotation annotation in doc.Pages[i].Annotations) { ... }
}

Aspose.PDF for .NET 是否需要许可证?

可以免费试用,但请考虑 临时执照 或获得完整访问权限的完整许可证。

我可以将提取的文本保存到文件中吗?

当然!您可以修改代码,将提取的文本写入文本文件。

Aspose.PDF 是否支持其他平台?

是的,Aspose.PDF 也支持 Java 和其他平台,提供类似的功能。