การแนะนำ

เมื่อทำงานกับไฟล์ PDF การแยกข้อความที่ไฮไลต์อาจมีความสำคัญอย่างยิ่งต่อการวิเคราะห์ข้อมูล การตรวจสอบเนื้อหา หรือการจัดระเบียบบันทึกย่อ หากคุณใช้ Aspose.PDF สำหรับ .NET ถือว่าคุณโชคดีแล้ว บทช่วยสอนนี้ให้คำแนะนำทีละขั้นตอนที่ชัดเจนเกี่ยวกับวิธีการแยกข้อความที่ไฮไลต์ออกจากเอกสาร PDF อย่างมีประสิทธิภาพ

ข้อกำหนดเบื้องต้น

ก่อนที่คุณจะเริ่มต้น ให้แน่ใจว่าคุณมีสิ่งต่อไปนี้:

Aspose.PDF สำหรับไลบรารี .NET: ดาวน์โหลดไลบรารีจาก หน้าเผยแพร่.
สภาพแวดล้อมการพัฒนา: สภาพแวดล้อมการทำงานเช่น Visual Studio
ความรู้พื้นฐานเกี่ยวกับ C#: จำเป็นต้องมีความคุ้นเคยกับ C# และการเขียนโปรแกรมเชิงวัตถุ
ใบอนุญาต Aspose: ในขณะที่คุณสามารถเริ่มต้นด้วยการทดลองใช้ฟรี ใบอนุญาตชั่วคราว หรือใบอนุญาตเต็มรูปแบบจาก ที่นี่ จะให้การเข้าถึงแบบไม่มีข้อจำกัด

นำเข้าเนมสเปซที่จำเป็น

เริ่มต้นด้วยการนำเข้าเนมสเปซที่จำเป็นลงในโครงการ C# ของคุณ:

using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

เนมสเปซเหล่านี้ให้การเข้าถึงคลาสและวิธีการที่จำเป็นสำหรับการจัดการเอกสาร PDF และคำอธิบายประกอบ

ขั้นตอนที่ 1: ตั้งค่าไดเรกทอรีโครงการของคุณ

ระบุไดเรกทอรีที่ไฟล์ PDF ของคุณตั้งอยู่:

// เส้นทางไปยังไดเร็กทอรีเอกสาร
string dataDir = "YOUR DOCUMENT DIRECTORY";

อย่าลืมแทนที่เส้นทางด้วยไดเร็กทอรีจริงของไฟล์ PDF ของคุณ

ขั้นตอนที่ 2: โหลดเอกสาร PDF

โหลดเอกสาร PDF ด้วยโค้ดต่อไปนี้:

Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

ตรวจสอบให้แน่ใจว่าไฟล์ที่ระบุมีอยู่ในไดเร็กทอรีที่กำหนด

ขั้นตอนที่ 3: เข้าถึงคำอธิบายประกอบบนหน้า

หากต้องการเข้าถึงคำอธิบายประกอบ ให้วนซ้ำผ่านคำอธิบายประกอบในหน้าที่คุณต้องการ (ในกรณีนี้คือหน้าแรก)

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
    if (annotation is TextMarkupAnnotation)
    {
        TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;

โค้ดนี้กรองสำหรับ TextMarkupAnnotation ประเภทซึ่งแสดงถึงไฮไลท์

ขั้นตอนที่ 4: แยกข้อความที่เน้นไว้

ตอนนี้แยกและแสดงข้อความจากคำอธิบายที่เน้นไว้:

        TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
        foreach (TextFragment tf in collection)
        {
            Console.WriteLine(tf.Text);
        }
    }
}

การดำเนินการนี้จะดึงชิ้นส่วนข้อความที่ทำเครื่องหมายไว้ทั้งหมดที่เชื่อมโยงกับไฮไลต์และพิมพ์ไปยังคอนโซล

บทสรุป

การแยกข้อความที่ไฮไลต์จาก PDF โดยใช้ Aspose.PDF สำหรับ .NET นั้นง่ายดายและช่วยเพิ่มประสิทธิภาพการจัดการเอกสารของคุณได้อย่างมาก เพียงทำตามขั้นตอนที่ระบุไว้ข้างต้น คุณก็จะสามารถรวบรวมข้อความที่ไฮไลต์ได้อย่างมีประสิทธิภาพสำหรับการใช้งานต่างๆ เช่น การจัดทำรายงานหรือการวิเคราะห์ข้อมูล

คำถามที่พบบ่อย

ฉันสามารถดึงคำอธิบายประเภทอื่นออกมาได้หรือไม่

ใช่ เพียงแค่ปรับ if เงื่อนไขในการรวมประเภทคำอธิบายประกอบที่แตกต่างกัน เช่น TextAnnotation หรือ StampAnnotation-

ฉันจะแยกข้อความที่เน้นสีจากทุกหน้า PDF ได้อย่างไร

คุณสามารถวนซ้ำผ่านหน้าทั้งหมดได้โดยใช้:

for (int i = 1; i <= doc.Pages.Count; i++)
{
    foreach (Annotation annotation in doc.Pages[i].Annotations) { ... }
}

จำเป็นต้องมีใบอนุญาตสำหรับ Aspose.PDF สำหรับ .NET หรือไม่

มีรุ่นทดลองใช้ฟรี แต่ลองพิจารณา ใบอนุญาตชั่วคราว หรือใบอนุญาตเต็มรูปแบบเพื่อการเข้าถึงแบบสมบูรณ์

ฉันสามารถบันทึกข้อความที่แยกออกมาเป็นไฟล์ได้หรือไม่

แน่นอน! คุณสามารถแก้ไขโค้ดเพื่อเขียนข้อความที่แยกออกมาลงในไฟล์ข้อความได้

Aspose.PDF รองรับแพลตฟอร์มอื่นหรือไม่?

ใช่ Aspose.PDF ยังรองรับ Java และแพลตฟอร์มอื่น ๆ อีกด้วย ซึ่งมีฟังก์ชันการทำงานที่คล้ายคลึงกัน