В этой практической статье мы предоставляем полный процесс извлечения изображений из PDF с помощью C#, как настроить необходимую библиотеку для извлечения изображений, а также пример кода для демонстрации реализации ** C# извлечение изображений из приложения PDF**. Эти инструкции не зависят от какого-либо дополнительного программного обеспечения и могут использоваться в любой операционной системе, такой как MS Windows, Linux и macOS, которые поддерживают среду .NET.
Шаги по извлечению изображений из PDF с помощью C#
- Настройте пакет GroupDocs.Parser for .NET из диспетчера пакетов NuGet в проекте .NET для извлечения изображений из документа PDF.
- Добавьте ссылку на необходимые пространства имен для извлечения изображений из PDF.
- Создайте объект класса Parser для загрузки входного PDF-документа.
- Вызовите метод GetImages и получите коллекцию объектов изображения.
- Наконец, переберите коллекцию и получите размеры, типы изображений и содержимое изображения.
Приведенным выше пошаговым инструкциям можно легко следовать при разработке приложения extract image from PDF C# в проектах .NET. Класс Parser позволяет загружать исходный файл PDF для извлечения изображений после настройки необходимого пакета и импорта необходимых пространств имен. Затем метод GetImages класса Parser позволяет получить коллекцию объектов изображения и проанализировать ее для извлечения размера, типа и содержимого изображения.
Код для извлечения изображений из PDF с использованием С#
using System; | |
using System.Collections.Generic; | |
using GroupDocs.Parser; | |
using GroupDocs.Parser.Data; | |
namespace ExtractImagesFromPdfUsingCSharp | |
{ | |
class Program | |
{ | |
public static void Main(string[] args) // Main function to extract images from PDF using C# | |
{ | |
// Remove the watermark in output | |
string licensePath = "GroupDocs.Parser.lic"; | |
GroupDocs.Parser.License lic = new GroupDocs.Parser.License(); | |
lic.SetLicense(licensePath); | |
// Create an instance of Parser class | |
using (Parser parser = new Parser("sample.pdf")) | |
{ | |
// Extract images | |
IEnumerable<PageImageArea> images = parser.GetImages(); | |
// Check if images extraction is supported | |
if (images == null) | |
{ | |
Console.WriteLine("Images extraction isn't supported"); | |
return; | |
} | |
// Iterate over images | |
foreach (PageImageArea image in images) | |
{ | |
// Print a page index, rectangle and image type: | |
Console.WriteLine(string.Format("Page: {0}, R: {1}, Type: {2}", image.Page.Index, image.Rectangle, image.FileType)); | |
} | |
} | |
} | |
} | |
} |
В предыдущем фрагменте функция get image from PDF C# разработана с использованием инструкций, описанных в предыдущем разделе. Как видите, для извлечения изображений из PDF-файла достаточно пары вызовов API. Кроме того, этот пример кода можно адаптировать для извлечения изображений из различных других форматов документов, включая DOC, DOCX, XLSX, XLT, HTML, PPT, PPTX, EPUB и многих других.
В этом посте мы обсудили пошаговый процесс извлечения изображений из PDF на C# и разработали для него пример кода. Недавно мы опубликовали статью об извлечении текста из PDF с помощью C#. Дополнительные сведения см. в руководстве как извлечь текст из PDF в С#.