Коротко — да, 1С может индексировать и искать текст в PDF не только в «Документообороте», но в любых конфигурациях при условии, что настроены компоненты извлечения текста и включена индексация вложений. Если у вас поиск не находит PDF‑содержимое, скорее всего проблема в одном из пунктов ниже.
Проверочный чек‑лист и действия по настройке
1) Убедитесь, что в PDF действительно есть текст
- Попробуйте в PDF выделить и скопировать текст в блокнот. Если это изображение (скан) — нужен OCR (см. пункт 6). Если текст есть — продолжаем.
2) Убедитесь, что файл в базе имеет корректное расширение/тип
- 1С выбирает конвертер по расширению/типу. Если файл хранится без расширения или с неправильным типом — извлечение не сработает. Проверьте имя файла в карточке (должно быть *.pdf).
3) Проверьте задания и логи «Извлечение текста файлов для поиска»
- В администрировании инфобазы посмотрите список фоновых заданий: задание «Извлечение текста файлов для поиска» должно выполняться и успешно завершаться.
- Откройте детали выполнения (журнал) — ищите ошибки вида «Не найден конвертер для формата pdf», «Ошибка при извлечении текста» и т.п.
4) Установите/проверьте компоненты извлечения текста (конвертеры)
- Платформа 1С сама не всегда умеет распарсить PDF — для этого используются внешние утилиты/библиотеки. На Windows это может быть PDF iFilter (Adobe/MS) или набор компонентов, поставляемых с платформой/сервером. На Linux часто используется pdftotext из пакета poppler-utils.
- Примеры для Linux (Debian/Ubuntu):
apt-get install poppler-utils catdoc antiword unrtf odt2txt tesseract-ocr
(poppler-utils — pdftotext; tesseract — для OCR, если нужен)
Для CentOS аналогично через yum/dnf.
- Для Windows: проверьте, что в дистрибутиве сервера 1С присутствуют компоненты извлечения текста или установите PDF iFilter (Adobe) если конвертер отсутствует. Прочитайте журнал ошибок — он подскажет, какого конвертера не хватает.
5) Настройки полнотекстового поиска в 1С
- В «Администрирование -> Полнотекстовый поиск» проверьте, что включены:
- «Полнотекстовый поиск»,
- «Ограничение размера файл-индекса» достаточное,
- опция индексирования вложенных/прилагаемых файлов (если есть).
- После установки/исправления конвертеров — выполните вручную «Обновление индекса ППД» и/или «Извлечение текста файлов для поиска».
6) OCR (если PDF — скан)
- Если PDF содержит только изображения (сканы), простое извлечение текста не сработает. Нужна OCR‑обработка. 1С по умолчанию OCR не делает; надо:
- предварительно прогнать PDF через OCR (Tesseract, Abbyy и т.п.) и загрузить полученный PDF/TXT в базу, или
- настроить внешний сервис/процесс, который будет делать OCR перед тем, как файл попадёт в 1С.
7) Тестирование
- Создайте тестовый PDF с уникальным словом (например, «UNIQWORD123»), загрузите в 1С и запустите извлечение/обновление индекса. Поиск по «UNIQWORD123» — если найдёт, значит конвертеры и индекс работают.
8) Где смотреть подсказки/что обычно встречается в логах
- В логах фоновых заданий увидите сообщения о пропущенных файлах, ошибках конвертеров, проблемах доступа (права на файлы/папки), таймаутах.
- Частая причина: конвертеры установлены на машине разработчика, но не на сервере 1С (где выполняются фоновые задания). Нужно ставить их именно на серверную машину.
Вывод по поводу «Документооборота»
- Функционально извлечение текста и полнотекстовый поиск — не привязаны к конкретной конфигурации; они реализованы платформой 1С. Пример в документации на «Документооборот» — просто потому, что там часто встречаются вложения. В «Бухгалтерии» функционал одинаков, но нужно обеспечить наличие и доступность внешних конвертеров на сервере и включить индексирование вложений.
Если хотите — пришлите
- сообщение из журнала выполнения задания «Извлечение текста…» с ошибкой (или скрин/текст), или
- пример PDF (с небольшим уникальным словом) — я подскажу, где смотреть дальше и какие конкретные конвертеры установить для вашей ОС (Windows/Linux).