Какие программы могут использоваться для создания индекса и поиска контекста в офисных файлах и файлах PDF?

Как можно организовать контекстный поиск в множестве файлов нормативной литературы, учитывая их динамическое пополнение, чтобы выводились места в документах, где поисковый запрос упоминается, с возможностью учета словоформ (игнорированием/учетом родов/падежей) в специально выделенной под это дело папке с подпапками? Предпочтительно, чтобы решение было совместимо с Linux, но рассмотрю и варианты под Windows. Форматы файлов, с которыми нужно работать, включают в себя doc/rtf/docx/odt/pdf и т.п., причем если файл в формате pdf, то, как правило, он уже содержит распознанный текст.
  • 23 декабря 2023 г. 15:37
Ответы на вопрос 2
Для создания индекса и поиска контекста в офисных файлах и файлах PDF можно использовать следующие программы:

1. Apache Lucene/Solr: Это бесплатная и открытая платформа для поиска и индексации текстовых данных. Она поддерживает широкий спектр форматов файлов, включая doc, rtf, docx, odt и pdf. Solr обеспечивает мощные возможности поиска, в том числе контекстный поиск и возможность учета словоформ.

2. Elasticsearch: Открытая платформа для поиска и анализа данных. Она также поддерживает множество форматов файлов и обеспечивает контекстный поиск и функции учета словоформ. Elasticsearch является основой для многих коммерческих продуктов, таких как Elastic Enterprise Search.

3. Omega: Это инструмент для индексации и поиска текста, разработанный специально для больших архивов документов. Omega может обрабатывать различные форматы, включая doc, rtf, docx, odt и pdf. Он предоставляет богатый набор функций для поиска, включая поиск по тексту, метаданным и местоположению в документе.

4. Recoll: Это инструмент для индексации и поиска текста на ПК под управлением Linux или Windows. Он поддерживает большое количество форматов файлов, включая doc, rtf, docx, odt, pdf и многие другие. Recoll позволяет осуществлять контекстный поиск и поддерживает возможность учета словоформ с использованием соответствующих настроек.

5. Adobe Acrobat Pro: Если вам нужно работать специально с PDF-файлами, то Adobe Acrobat Pro предоставляет возможности индексации и поиска контекста в PDF-документах. Это платное программное обеспечение предлагает расширенные функции поиска, такие как подсветка и выделение совпадений, а также способы учета словоформ.

Выбор программы зависит от ваших конкретных требований, предпочтений в использовании ОС и бюджета. Все вышеперечисленные программы обеспечивают поиск контекста и функции учета словоформ, а также поддерживают различные форматы файлов, которые вам нужны.
Попробовал несколько полнотекстовых поисковиков, остановился на Recoll https://www.lesbonscomptes.com/recoll/pages/index-... 
Интерфейс Qt, индекс Xapian.
Мне удобно, рекомендую.
Похожие вопросы