Εισαγωγή

Όταν εργάζεστε με αρχεία PDF, η εξαγωγή επισημασμένου κειμένου μπορεί να είναι απαραίτητη για την ανάλυση δεδομένων, την αναθεώρηση περιεχομένου ή την οργάνωση σημειώσεων. Εάν χρησιμοποιείτε το Aspose.PDF για .NET, είστε τυχεροί. Αυτό το σεμινάριο παρέχει σαφείς, βήμα προς βήμα οδηγίες για το πώς να εξαγάγετε αποτελεσματικά το επισημασμένο κείμενο από ένα έγγραφο PDF.

Προαπαιτούμενα

Πριν ξεκινήσετε, βεβαιωθείτε ότι έχετε τα ακόλουθα στη διάθεσή σας:

  • Aspose.PDF για τη βιβλιοθήκη .NET: Κατεβάστε τη βιβλιοθήκη από το σελίδα έκδοσης.
  • Περιβάλλον Ανάπτυξης: Ένα εργασιακό περιβάλλον όπως το Visual Studio.
  • Βασικές γνώσεις C#: Απαραίτητη η εξοικείωση με την C# και τον αντικειμενοστρεφή προγραμματισμό.
  • Άδεια Aspose: Ενώ μπορείτε να ξεκινήσετε με μια δωρεάν δοκιμή, ένα προσωρινή άδεια ή μια πλήρη άδεια από εδώ θα παρέχει απεριόριστη πρόσβαση.

Εισαγωγή απαραίτητων χώρων ονομάτων

Ξεκινήστε εισάγοντας τους απαιτούμενους χώρους ονομάτων στο έργο C# σας:

using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

Αυτοί οι χώροι ονομάτων παρέχουν πρόσβαση στις κλάσεις και τις μεθόδους που απαιτούνται για τον χειρισμό εγγράφων PDF και σχολιασμών.

Βήμα 1: Ρύθμιση του καταλόγου έργου σας

Καθορίστε τον κατάλογο όπου βρίσκεται το αρχείο PDF σας:

// Διαδρομή προς τον κατάλογο εγγράφων.
string dataDir = "YOUR DOCUMENT DIRECTORY";

Βεβαιωθείτε ότι έχετε αντικαταστήσει τη διαδρομή με τον πραγματικό κατάλογο του αρχείου PDF σας.

Βήμα 2: Φόρτωση του εγγράφου PDF

Φορτώστε το έγγραφο PDF με τον ακόλουθο κώδικα:

Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

Βεβαιωθείτε ότι το καθορισμένο αρχείο υπάρχει στον δεδομένο κατάλογο.

Βήμα 3: Πρόσβαση στις σχολιασμοί στη σελίδα

Για να αποκτήσετε πρόσβαση στις σημειώσεις, κάντε επανάληψη στις σημειώσεις στη σελίδα που θέλετε (σε αυτήν την περίπτωση, στην πρώτη σελίδα):

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
    if (annotation is TextMarkupAnnotation)
    {
        TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;

Αυτός ο κώδικας φιλτράρει για TextMarkupAnnotation τύποι, οι οποίοι αντιπροσωπεύουν τα σημαντικότερα σημεία.

Βήμα 4: Εξαγωγή του επισημασμένου κειμένου

Τώρα, εξαγάγετε και εμφανίστε το κείμενο από τις επισημασμένες σημειώσεις:

        TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
        foreach (TextFragment tf in collection)
        {
            Console.WriteLine(tf.Text);
        }
    }
}

Αυτό ανακτά όλα τα επισημασμένα τμήματα κειμένου που σχετίζονται με την επισήμανση και τα εκτυπώνει στην κονσόλα.

Σύναψη

Η εξαγωγή επισημασμένου κειμένου από ένα PDF χρησιμοποιώντας το Aspose.PDF για .NET είναι απλή και μπορεί να βελτιώσει σημαντικά τη διαδικασία χειρισμού εγγράφων. Ακολουθώντας τα βήματα που περιγράφονται παραπάνω, μπορείτε να συλλέξετε αποτελεσματικά επισημασμένο κείμενο για διάφορες εφαρμογές, όπως η προετοιμασία αναφορών ή η ανάλυση δεδομένων.

Συχνές ερωτήσεις

Μπορώ να εξαγάγω άλλους τύπους σχολιασμών;

Ναι, απλώς ρυθμίστε το if προϋπόθεση για να συμπεριληφθούν διαφορετικοί τύποι σχολίων, όπως TextAnnotation ή StampAnnotation.

Πώς μπορώ να εξαγάγω επισημασμένο κείμενο από όλες τις σελίδες PDF;

Μπορείτε να κάνετε επανάληψη σε όλες τις σελίδες χρησιμοποιώντας:

for (int i = 1; i <= doc.Pages.Count; i++)
{
    foreach (Annotation annotation in doc.Pages[i].Annotations) { ... }
}

Απαιτείται άδεια χρήσης για το Aspose.PDF για .NET;

Διατίθεται δωρεάν δοκιμή, αλλά σκεφτείτε να προσωρινή άδεια ή μια πλήρη άδεια χρήσης για πλήρη πρόσβαση.

Μπορώ να αποθηκεύσω το εξαγόμενο κείμενο σε ένα αρχείο;

Απολύτως! Μπορείτε να τροποποιήσετε τον κώδικα για να γράψετε εξαγόμενο κείμενο σε ένα αρχείο κειμένου.

Υποστηρίζει το Aspose.PDF άλλες πλατφόρμες;

Ναι, το Aspose.PDF υποστηρίζει επίσης Java και άλλες πλατφόρμες, παρέχοντας παρόμοια λειτουργικότητα.