giriiş

PDF dosyalarıyla çalışırken, vurgulanan metni çıkarmak veri analizi, içerik incelemesi veya notları düzenlemek için önemli olabilir. .NET için Aspose.PDF kullanıyorsanız, şanslısınız. Bu eğitim, bir PDF belgesinden vurgulanan metni nasıl verimli bir şekilde çıkaracağınıza dair açık ve adım adım talimatlar sunar.

Ön koşullar

Başlamadan önce aşağıdakilerin mevcut olduğundan emin olun:

  • .NET için Aspose.PDF Kitaplığı: Kitaplığı şu adresten indirin: yayın sayfası.
  • Geliştirme Ortamı: Visual Studio benzeri bir çalışma ortamı.
  • Temel C# Bilgisi: C# ve nesne yönelimli programlamaya aşinalık gereklidir.
  • Aspose Lisansı: Ücretsiz bir denemeyle başlayabilmenize rağmen, geçici lisans veya tam lisans Burada sınırsız erişim sağlanacaktır.

Gerekli Ad Alanlarını İçe Aktar

Öncelikle C# projenize gerekli ad alanlarını içe aktararak başlayın:

using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;

Bu ad alanları, PDF belgelerini ve açıklamalarını işlemek için gereken sınıflara ve yöntemlere erişim sağlar.

Adım 1: Proje Dizininizi Ayarlayın

PDF dosyanızın bulunduğu dizini belirtin:

// Belgeler dizinine giden yol.
string dataDir = "YOUR DOCUMENT DIRECTORY";

PDF dosyanızın yolunu gerçek diziniyle değiştirdiğinizden emin olun.

Adım 2: PDF Belgesini yükleyin

Aşağıdaki kodla PDF belgesini yükleyin:

Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");

Belirtilen dosyanın belirtilen dizinde mevcut olduğundan emin olun.

Adım 3: Sayfadaki Açıklamalara Erişim

Açıklamalara erişmek için, istediğiniz sayfadaki (bu durumda ilk sayfa) açıklamalar arasında dolaşın:

foreach (Annotation annotation in doc.Pages[1].Annotations)
{
    if (annotation is TextMarkupAnnotation)
    {
        TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;

Bu kod şunları filtreler: TextMarkupAnnotation vurguları temsil eden türler.

Adım 4: Vurgulanan Metni Çıkarın

Şimdi vurgulanan açıklamalardan metni çıkarın ve görüntüleyin:

        TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
        foreach (TextFragment tf in collection)
        {
            Console.WriteLine(tf.Text);
        }
    }
}

Bu, vurgulamayla ilişkili tüm işaretli metin parçalarını alır ve bunları konsola yazdırır.

Çözüm

Aspose.PDF for .NET kullanarak bir PDF’den vurgulanan metni çıkarmak kolaydır ve belge işleme sürecinizi önemli ölçüde iyileştirebilir. Yukarıda belirtilen adımları izleyerek, rapor hazırlama veya veri analizi gibi çeşitli uygulamalar için vurgulanan metni verimli bir şekilde toplayabilirsiniz.

SSS

Diğer türdeki açıklamaları çıkarabilir miyim?

Evet, sadece ayarlayın if farklı açıklama türlerini içerme koşulu TextAnnotation veya StampAnnotation.

Tüm PDF sayfalarından vurgulanan metni nasıl çıkarabilirim?

Tüm sayfalarda gezinmek için şunu kullanabilirsiniz:

for (int i = 1; i <= doc.Pages.Count; i++)
{
    foreach (Annotation annotation in doc.Pages[i].Annotations) { ... }
}

Aspose.PDF for .NET için lisans gerekli mi?

Ücretsiz bir deneme mevcuttur, ancak bir geçici lisans veya tam erişim için tam lisans.

Çıkarılan metni bir dosyaya kaydedebilir miyim?

Kesinlikle! Kodu düzenleyerek çıkarılan metni bir metin dosyasına yazabilirsiniz.

Aspose.PDF diğer platformları destekliyor mu?

Evet, Aspose.PDF Java ve diğer platformları da destekleyerek benzer işlevsellik sağlıyor.