परिचय
PDF फ़ाइलों के साथ काम करते समय, डेटा विश्लेषण, सामग्री समीक्षा, या नोट्स व्यवस्थित करने के लिए हाइलाइट किए गए टेक्स्ट को निकालना ज़रूरी हो सकता है। अगर आप .NET के लिए Aspose.PDF का इस्तेमाल कर रहे हैं, तो आप बहुत भाग्यशाली हैं। यह ट्यूटोरियल PDF दस्तावेज़ से हाइलाइट किए गए टेक्स्ट को कुशलतापूर्वक निकालने के बारे में स्पष्ट, चरण-दर-चरण निर्देश प्रदान करता है।
आवश्यक शर्तें
आरंभ करने से पहले, सुनिश्चित करें कि आपके पास निम्नलिखित चीजें मौजूद हैं:
- .NET लाइब्रेरी के लिए Aspose.PDF: लाइब्रेरी को यहां से डाउनलोड करें रिलीज़ पृष्ठ.
- विकास वातावरण: विजुअल स्टूडियो जैसा कार्य वातावरण।
- C# का बुनियादी ज्ञान: C# और ऑब्जेक्ट-ओरिएंटेड प्रोग्रामिंग से परिचित होना आवश्यक है।
- Aspose लाइसेंस: हालांकि आप एक निःशुल्क परीक्षण के साथ शुरुआत कर सकते हैं, अस्थायी लाइसेंस या पूर्ण लाइसेंस यहाँ अप्रतिबंधित पहुंच प्रदान करेगा।
आवश्यक नामस्थान आयात करें
अपने C# प्रोजेक्ट में आवश्यक नामस्थानों को आयात करके प्रारंभ करें:
using Aspose.Pdf.Text;
using System;
using System.Collections.Generic;
using System.Linq;
using System.Text;
ये नामस्थान पीडीएफ दस्तावेजों और एनोटेशन को संभालने के लिए आवश्यक कक्षाओं और विधियों तक पहुंच प्रदान करते हैं।
चरण 1: अपनी परियोजना निर्देशिका सेट करें
वह निर्देशिका निर्दिष्ट करें जहां आपकी PDF फ़ाइल स्थित है:
// दस्तावेज़ निर्देशिका का पथ.
string dataDir = "YOUR DOCUMENT DIRECTORY";
सुनिश्चित करें कि पथ को अपनी पीडीएफ फाइल की वास्तविक निर्देशिका से प्रतिस्थापित किया जाए।
चरण 2: PDF दस्तावेज़ लोड करें
निम्नलिखित कोड के साथ पीडीएफ दस्तावेज़ लोड करें:
Document doc = new Document(dataDir + "ExtractHighlightedText.pdf");
सुनिश्चित करें कि निर्दिष्ट फ़ाइल दी गई निर्देशिका में मौजूद है।
चरण 3: पृष्ठ पर एनोटेशन तक पहुँचें
एनोटेशन तक पहुंचने के लिए, अपने इच्छित पृष्ठ (इस मामले में, पहला पृष्ठ) पर एनोटेशन के माध्यम से लूप करें:
foreach (Annotation annotation in doc.Pages[1].Annotations)
{
if (annotation is TextMarkupAnnotation)
{
TextMarkupAnnotation highlightedAnnotation = annotation as TextMarkupAnnotation;
यह कोड निम्न के लिए फ़िल्टर करता है TextMarkupAnnotation
प्रकार, जो हाइलाइट्स का प्रतिनिधित्व करते हैं।
चरण 4: हाइलाइट किए गए टेक्स्ट को निकालें
अब, हाइलाइट किए गए एनोटेशन से टेक्स्ट निकालें और प्रदर्शित करें:
TextFragmentCollection collection = highlightedAnnotation.GetMarkedTextFragments();
foreach (TextFragment tf in collection)
{
Console.WriteLine(tf.Text);
}
}
}
यह हाइलाइट से संबद्ध सभी चिह्नित पाठ अंशों को पुनः प्राप्त करता है और उन्हें कंसोल पर प्रिंट करता है।
निष्कर्ष
.NET के लिए Aspose.PDF का उपयोग करके PDF से हाइलाइट किए गए टेक्स्ट को निकालना आसान है और यह आपकी दस्तावेज़ प्रबंधन प्रक्रिया को काफ़ी बेहतर बना सकता है। ऊपर बताए गए चरणों का पालन करके, आप रिपोर्ट तैयार करने या डेटा विश्लेषण जैसे विभिन्न अनुप्रयोगों के लिए हाइलाइट किए गए टेक्स्ट को कुशलतापूर्वक एकत्र कर सकते हैं।
अक्सर पूछे जाने वाले प्रश्न
क्या मैं अन्य प्रकार के एनोटेशन निकाल सकता हूँ?
हाँ, बस समायोजित करें if
विभिन्न एनोटेशन प्रकारों को शामिल करने की शर्त जैसे TextAnnotation
या StampAnnotation
.
मैं सभी पीडीएफ पृष्ठों से हाइलाइट किए गए टेक्स्ट को कैसे निकाल सकता हूं?
आप निम्न का उपयोग करके सभी पृष्ठों पर लूप कर सकते हैं:
for (int i = 1; i <= doc.Pages.Count; i++)
{
foreach (Annotation annotation in doc.Pages[i].Annotations) { ... }
}
क्या .NET के लिए Aspose.PDF हेतु लाइसेंस आवश्यक है?
एक निःशुल्क परीक्षण उपलब्ध है, लेकिन एक पर विचार करें अस्थायी लाइसेंस या पूर्ण पहुंच के लिए पूर्ण लाइसेंस।
क्या मैं निकाले गए पाठ को किसी फ़ाइल में सहेज सकता हूँ?
बिल्कुल! आप निकाले गए टेक्स्ट को टेक्स्ट फ़ाइल में लिखने के लिए कोड को संशोधित कर सकते हैं।
क्या Aspose.PDF अन्य प्लेटफॉर्म का समर्थन करता है?
हां, Aspose.PDF जावा और अन्य प्लेटफार्मों का भी समर्थन करता है, जो समान कार्यक्षमता प्रदान करता है।