Wstęp

Podczas pracy z plikami PDF wyodrębnianie wyróżnionego tekstu może być niezbędne do analizy danych, przeglądania treści lub porządkowania notatek. Jeśli używasz Aspose.PDF dla platformy .NET, masz szczęście. Ten samouczek zawiera przejrzyste instrukcje krok po kroku, jak skutecznie wyodrębnić wyróżniony tekst z dokumentu PDF.

Wymagania wstępne

Zanim zaczniesz, upewnij się, że masz przygotowane następujące rzeczy:

  • Aspose.PDF dla biblioteki .NET: Pobierz bibliotekę ze strony strona wydania.
  • Środowisko programistyczne: środowisko pracy, takie jak Visual Studio.
  • Podstawowa znajomość języka C#: Znajomość języka C# i programowania obiektowego jest wymagana.
  • Licencja Aspose: Chociaż możesz zacząć od bezpłatnego okresu próbnego, tymczasowa licencja lub pełną licencję od Tutaj zapewni nieograniczony dostęp.

Importuj niezbędne przestrzenie nazw

Zacznij od zaimportowania wymaganych przestrzeni nazw do swojego projektu C#:

using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

Te przestrzenie nazw zapewniają dostęp do klas i metod niezbędnych do obsługi dokumentów PDF i adnotacji.

Krok 1: Skonfiguruj katalog swojego projektu

Podaj katalog, w którym znajduje się Twój plik PDF:

// Ścieżka do katalogu dokumentów.
string dataDir = "YOUR DOCUMENT DIRECTORY";

Pamiętaj, aby zastąpić ścieżkę rzeczywistym katalogiem pliku PDF.

Krok 2: Załaduj dokument PDF

Załaduj dokument PDF za pomocą następującego kodu:

Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

Sprawdź, czy wskazany plik istnieje w podanym katalogu.

Krok 3: Dostęp do adnotacji na stronie

Aby uzyskać dostęp do adnotacji, przejrzyj adnotacje na wybranej stronie (w tym przypadku pierwszej stronie):

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
    if (annotation is TextMarkupAnnotation)
    {
        TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;

Ten kod filtruje TextMarkupAnnotation typy, które reprezentują najważniejsze informacje.

Krok 4: Wyodrębnij zaznaczony tekst

Teraz wyodrębnij i wyświetl tekst z podświetlonych adnotacji:

        TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
        foreach (TextFragment tf in collection)
        {
            Console.WriteLine(tf.Text);
        }
    }
}

Pobiera wszystkie zaznaczone fragmenty tekstu powiązane z podświetleniem i wyświetla je na konsoli.

Wniosek

Wyodrębnianie wyróżnionego tekstu z pliku PDF za pomocą Aspose.PDF dla platformy .NET jest proste i może znacznie usprawnić proces obsługi dokumentów. Postępując zgodnie z powyższymi krokami, możesz efektywnie gromadzić wyróżniony tekst na potrzeby różnych aplikacji, takich jak przygotowywanie raportów czy analiza danych.

Najczęściej zadawane pytania

Czy mogę wyodrębnić inne typy adnotacji?

Tak, wystarczy dostosować if warunek uwzględnienia różnych typów adnotacji, takich jak TextAnnotation Lub StampAnnotation.

Jak mogę wyodrębnić zaznaczony tekst ze wszystkich stron pliku PDF?

Możesz przeglądać wszystkie strony za pomocą:

for (int i = 1; i <= doc.Pages.Count; i++)
{
    foreach (Annotation annotation in doc.Pages[i].Annotations) { ... }
}

Czy do korzystania z Aspose.PDF dla platformy .NET potrzebna jest licencja?

Dostępna jest bezpłatna wersja próbna, ale rozważ tymczasowa licencja lub pełną licencję zapewniającą pełen dostęp.

Czy mogę zapisać wyodrębniony tekst do pliku?

Oczywiście! Możesz zmodyfikować kod, aby zapisać wyodrębniony tekst do pliku tekstowego.

Czy Aspose.PDF obsługuje inne platformy?

Tak, Aspose.PDF obsługuje również Javę i inne platformy, zapewniając podobną funkcjonalność.