Introduzione

Quando si lavora con file PDF, l’estrazione del testo evidenziato può essere essenziale per l’analisi dei dati, la revisione dei contenuti o l’organizzazione delle note. Se utilizzi Aspose.PDF per .NET, sei fortunato. Questo tutorial fornisce istruzioni chiare e dettagliate su come estrarre in modo efficiente il testo evidenziato da un documento PDF.

Prerequisiti

Prima di iniziare, assicurati di avere a disposizione quanto segue:

  • Aspose.PDF per la libreria .NET: scarica la libreria da pagina di rilascio.
  • Ambiente di sviluppo: un ambiente di lavoro come Visual Studio.
  • Conoscenza di base di C#: è necessaria familiarità con C# e la programmazione orientata agli oggetti.
  • Licenza Aspose: sebbene sia possibile iniziare con una prova gratuita, una licenza temporanea o una licenza completa da Qui fornirà un accesso illimitato.

Importa gli spazi dei nomi necessari

Per iniziare, importa gli spazi dei nomi richiesti nel tuo progetto C#:

using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

Questi namespace forniscono l’accesso alle classi e ai metodi necessari per gestire documenti PDF e annotazioni.

Passaggio 1: imposta la directory del progetto

Specifica la directory in cui si trova il tuo file PDF:

// Percorso alla directory dei documenti.
string dataDir = "YOUR DOCUMENT DIRECTORY";

Assicurati di sostituire il percorso con la directory effettiva del tuo file PDF.

Passaggio 2: caricare il documento PDF

Caricare il documento PDF con il seguente codice:

Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

Assicurarsi che il file specificato esista nella directory indicata.

Passaggio 3: accedere alle annotazioni sulla pagina

Per accedere alle annotazioni, scorrere le annotazioni sulla pagina desiderata (in questo caso, la prima pagina):

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
    if (annotation is TextMarkupAnnotation)
    {
        TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;

Questo codice filtra per TextMarkupAnnotation tipi, che rappresentano punti salienti.

Passaggio 4: estrarre il testo evidenziato

Ora estraiamo e visualizziamo il testo dalle annotazioni evidenziate:

        TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
        foreach (TextFragment tf in collection)
        {
            Console.WriteLine(tf.Text);
        }
    }
}

In questo modo vengono recuperati tutti i frammenti di testo contrassegnati associati all’evidenziazione e vengono stampati sulla console.

Conclusione

Estrarre testo evidenziato da un PDF utilizzando Aspose.PDF per .NET è semplice e può migliorare significativamente il processo di gestione dei documenti. Seguendo i passaggi descritti sopra, è possibile raccogliere in modo efficiente il testo evidenziato per diverse applicazioni, come la preparazione di report o l’analisi dei dati.

Domande frequenti

Posso estrarre altri tipi di annotazioni?

Sì, basta regolare il if condizione per includere diversi tipi di annotazione come TextAnnotation O StampAnnotation.

Come posso estrarre il testo evidenziato da tutte le pagine PDF?

È possibile scorrere tutte le pagine utilizzando:

for (int i = 1; i <= doc.Pages.Count; i++)
{
    foreach (Annotation annotation in doc.Pages[i].Annotations) { ... }
}

È necessaria una licenza per Aspose.PDF per .NET?

È disponibile una prova gratuita, ma considera un licenza temporanea oppure una licenza completa per un accesso completo.

Posso salvare il testo estratto in un file?

Assolutamente! Puoi modificare il codice per scrivere il testo estratto in un file di testo.

Aspose.PDF supporta altre piattaforme?

Sì, Aspose.PDF supporta anche Java e altre piattaforme, offrendo funzionalità simili.