Как настроить поиск текста внутри PDF‑файлов в программе 1С:Бухгалтерия?

Question

Давлат

1с-предприятие

Как настроить поиск текста внутри PDF‑файлов в программе 1С:Бухгалтерия?

Использую типовую «Бухгалтерию 1С» свежего релиза. Через стандартный механизм «Файлы» добавил в базу PDF с текстовым содержимым (любой просмотрщик PDF видит в нём текст). <br/>В базе: <br/>"Полнотекстовый поиск" включён. <br/>"Ограничить максимальный размер индексируемых данных" установлен на 50 Мб (файл меньше). <br/>Задания "Обновление индекса ППД", "Слияние индекса ППД" и "Извлечение текста файлов для поиска" включены и выполняются. <br/>Можно ли каким‑то образом заставить встроенный полнотекстовый поиск 1С индексировать и находить информацию внутри этого PDF? У меня поиск не находит. В документации 1С указано, что поиск должен работать, но пример приведён только для "1С:Документооборот" — означает ли это, что в других конфигурациях функционал ограничен?

29 апреля 2026 г. 2:01

Ответы на вопрос 2

Похожие вопросы

Answer 1

Коротко — да, 1С может индексировать и искать текст в PDF не только в «Документообороте», но в любых конфигурациях при условии, что настроены компоненты извлечения текста и включена индексация вложений. Если у вас поиск не находит PDF‑содержимое, скорее всего проблема в одном из пунктов ниже.

Проверочный чек‑лист и действия по настройке

1) Убедитесь, что в PDF действительно есть текст
- Попробуйте в PDF выделить и скопировать текст в блокнот. Если это изображение (скан) — нужен OCR (см. пункт 6). Если текст есть — продолжаем.

2) Убедитесь, что файл в базе имеет корректное расширение/тип
- 1С выбирает конвертер по расширению/типу. Если файл хранится без расширения или с неправильным типом — извлечение не сработает. Проверьте имя файла в карточке (должно быть *.pdf).

3) Проверьте задания и логи «Извлечение текста файлов для поиска»
- В администрировании инфобазы посмотрите список фоновых заданий: задание «Извлечение текста файлов для поиска» должно выполняться и успешно завершаться.
- Откройте детали выполнения (журнал) — ищите ошибки вида «Не найден конвертер для формата pdf», «Ошибка при извлечении текста» и т.п.

4) Установите/проверьте компоненты извлечения текста (конвертеры)
- Платформа 1С сама не всегда умеет распарсить PDF — для этого используются внешние утилиты/библиотеки. На Windows это может быть PDF iFilter (Adobe/MS) или набор компонентов, поставляемых с платформой/сервером. На Linux часто используется pdftotext из пакета poppler-utils.
- Примеры для Linux (Debian/Ubuntu):
  apt-get install poppler-utils catdoc antiword unrtf odt2txt tesseract-ocr
  (poppler-utils — pdftotext; tesseract — для OCR, если нужен)
  Для CentOS аналогично через yum/dnf.
- Для Windows: проверьте, что в дистрибутиве сервера 1С присутствуют компоненты извлечения текста или установите PDF iFilter (Adobe) если конвертер отсутствует. Прочитайте журнал ошибок — он подскажет, какого конвертера не хватает.

5) Настройки полнотекстового поиска в 1С
- В «Администрирование -> Полнотекстовый поиск» проверьте, что включены:
  - «Полнотекстовый поиск»,
  - «Ограничение размера файл-индекса» достаточное,
  - опция индексирования вложенных/прилагаемых файлов (если есть).
- После установки/исправления конвертеров — выполните вручную «Обновление индекса ППД» и/или «Извлечение текста файлов для поиска».

6) OCR (если PDF — скан)
- Если PDF содержит только изображения (сканы), простое извлечение текста не сработает. Нужна OCR‑обработка. 1С по умолчанию OCR не делает; надо:
  - предварительно прогнать PDF через OCR (Tesseract, Abbyy и т.п.) и загрузить полученный PDF/TXT в базу, или
  - настроить внешний сервис/процесс, который будет делать OCR перед тем, как файл попадёт в 1С.

7) Тестирование
- Создайте тестовый PDF с уникальным словом (например, «UNIQWORD123»), загрузите в 1С и запустите извлечение/обновление индекса. Поиск по «UNIQWORD123» — если найдёт, значит конвертеры и индекс работают.

8) Где смотреть подсказки/что обычно встречается в логах
- В логах фоновых заданий увидите сообщения о пропущенных файлах, ошибках конвертеров, проблемах доступа (права на файлы/папки), таймаутах.
- Частая причина: конвертеры установлены на машине разработчика, но не на сервере 1С (где выполняются фоновые задания). Нужно ставить их именно на серверную машину.

Вывод по поводу «Документооборота»
- Функционально извлечение текста и полнотекстовый поиск — не привязаны к конкретной конфигурации; они реализованы платформой 1С. Пример в документации на «Документооборот» — просто потому, что там часто встречаются вложения. В «Бухгалтерии» функционал одинаков, но нужно обеспечить наличие и доступность внешних конвертеров на сервере и включить индексирование вложений.

Если хотите — пришлите
- сообщение из журнала выполнения задания «Извлечение текста…» с ошибкой (или скрин/текст), или
- пример PDF (с небольшим уникальным словом) — я подскажу, где смотреть дальше и какие конкретные конвертеры установить для вашей ОС (Windows/Linux).

Answer 2

Нужно скачать на сервере 1с предприятия IFilter explorer и посмотреть, есть ли что-то для pdf. если нет - то установить Adobe PDF iFilter или другой, например PDFlib TET PDF IFilter. после этого файлы, скорее всего, надо перезаписать, чтобы регламентное задание (или кнопка извлечения вручную) сработали