Каким образом можно извлечь текст с изображений в формате PDF?

Question

Сидор

linux , pdf , обработка-изображений , ocr

Каким образом можно извлечь текст с изображений в формате PDF?

Как можно распознать содержимое PDF-файла, включая текст на картинках, в операционной системе Linux или онлайн, чтобы получить результат в виде .txt файла?

29 марта 2024 г. 22:49

Ответы на вопрос 2

Похожие вопросы

Answer 1

Существует несколько способов извлечь текст с изображений в формате PDF:

1. Использование программы для распознавания текста (OCR). Например, программа Tesseract, которая доступна как в командной строке Linux, так и в виде онлайн-сервиса. Для работы с Tesseract в Linux можно использовать следующую команду:

```bash
tesseract input.pdf output.txt
```

2. Использование специализированных онлайн-сервисов, таких как Smallpdf или OnlineOCR. Вы можете загрузить PDF-файл на сайт и получить результат в виде текстового файла.

3. Использование программ для работы с документами в Linux, таких как Poppler или pdftotext. Например, для использования команды pdftotext в Linux:

```bash
pdftotext input.pdf output.txt
```

Независимо от выбранного метода, после обработки PDF-файла содержимое на картинках будет распознано и представлено в текстовом формате в .txt файле.

Answer 2

Данная технология называется OCR. <br/> Можно использовать OCR движок для распознавания например <a href="https://github.com/tesseract-ocr/tesseract" rel="nofollow">tesseract-ocr</a> <br/> Со списком команд и как экспортировать текст из PDF в TXT ознакомься уже сам )