Какие из доступных в настоящее время больших языковых моделей вы порекомендуете использовать для создания офисного (корпоративного) бота?

Question

Исидор

боты , нейронные-сети

Какие из доступных в настоящее время больших языковых моделей вы порекомендуете использовать для создания офисного (корпоративного) бота?

Привет. Руководство хочет завести в офисе собственную нейросеть для простых задач по работе с документами и их анализа (хотелось бы, конечно, большего). Я тестировал несколько моделей через ollama: <br/> llama3.2:3b <br/> granite4.1:8b <br/> Qwen3.5-Opus:2b <br/> gemma4:e4b <br/> остальные не буду указывать — они совсем плохие. Некоторые из этих моделей без vision и tools в целом работают неплохо, но не могут распознавать файлы или полноценно с ними работать. Кто-то уже решал подобную задачу? Поделитесь, пожалуйста, опытом тестирования других интересных моделей или тем, что уже внедряли. Не обязательно нужен агент — возможно, достаточно Open Web UI. Тестировал на таком железе: i7 8700k + SSD NVMe + 32 ГБ ОЗУ + GTX 4070 на Ubuntu Desktop.

6 мая 2026 г. 2:01

Ответы на вопрос 6

Похожие вопросы

Answer 1

Коротко — давайте план и конкретные рекомендации. Вы правы: для офисного бота обычно не нужен «супер‑агент», а нужна надёжная RAG‑платформа (извлечение текста из файлов → векторный поиск → LLM для формулировок/анализа) с хорошей предобработкой файлов и OCR. Ниже — что рекомендую с учётом вашего железа и задач.

1) Какой класс модели выбирать (ориентиры)
- Лёгкие (2–4B): быстрые, дешёвые, подходят для простых шаблонных задач. Ваша llama3.2:3b / Qwen3.5:2b — неплохие для базового QA, но будут ограничены в сложном анализе и контекстном рассуждении.  
- «Золотая середина» (7–8B): лучший компромисс производительности и качества на одной 4070. Большинство современных instruction‑tuned 7B моделей (Mistral/Mixtral, MPT‑7B‑Instruct, Qwen‑7B‑Chat, Llama3 7B) дают заметно лучшее качество, особенно в задачах с пониманием документов.  
- Большие (13B+): значительно лучше в сложных задачах, но на 12GB VRAM требуют агрессивной квантзации + CPU‑оффлоад/сервер. Если захотите повысить качество — подумайте про облачный/серверный инстанс или кластер.

Рекомендация: начать с 7B instruction‑tuned модели (если доступна в Ollama — Mistral/Mixtral, Qwen‑7B, Llama3 7B или MPT‑7B). Это даст лучший ROI на вашем GTX 4070.

2) Практическая архитектура для офисного бота
- Ингест и парсинг файлов: pdfplumber / pdfminer / unstructured / Apache Tika для PDF/Office; для таблиц — Camelot/Tabula; для OCR — Tesseract / PaddleOCR / EasyOCR.  
- Очистка и разбиение: chunking (sliding windows), метаданные (имя файла, страница, таблицы) и хеширование.  
- Векторные эмбеддинги и БД: для on‑prem — Chroma, Qdrant или Milvus. Для эмбеддингов — sentence‑transformers (all‑MPNet/E5) или легкие GPU‑совместимые эмбеддеры.  
- RAG pipeline: при запросе — найти релевантные чанки → сформировать подсказку (prompt) + контекст → LLM для генерации ответа.  
- Инференс: запуск модели локально через Ollama / text‑generation‑webui / llama.cpp (ggml/gguf) или через сервер (vLLM, text‑generation-inference) при необходимости масштабирования.  
- Безопасность/контроль: логирование запросов/ответов, PII detection, ограничения на экспорт данных.

3) Файлы, OCR и табличные данные — реалии
- Не ожидайте «модель сама всё распознает» — лучше свести распознавание/парсинг к отдельному слою. Модель лучше использовать для синтеза и анализа текста, а не для raw OCR.  
- Таблицы: хорошие результаты даёт извлечение таблиц в структуры (CSV/JSON) + отдельный модуль для агрегации/вопросов по таблицам (tabular QA модели/специализированные алгоритмы).

4) Какие модели тестировать у вас (конкретно)
- Попробуйте в первую очередь: Mistral 7B (или Mixtral 8x7B), MPT‑7B‑Instruct, Qwen‑7B‑Chat, Llama‑3 7B (если доступно), Gemma 7B (если релиз для вашей среды). Они обычно заметно лучше 3B в задачах по пониманию документов.  
- Если у вас уже llama3.2:3b и granite4.1:8b — сравните 8B вариант с 7B instruction‑tuned моделью; 8B может выиграть, но tuning/instruction‑версия часто важнее размера.  
- Для визуальных задач (если хотите распознавать изображения/сканы прямо в диалоге): смотреть в сторону Qwen‑VL / LLaVA / другие VL‑версии, но они потребуют больше памяти и сложнее встраиваются. Альтернатива: OCR → текст → RAG.

5) Квантование и производительность на GTX 4070 (12GB)
- На 12GB VRAM комфортно работают 4–8B модели в 4‑битной/ggml квантованной форме; 7–8B — реалистичный выбор.  
- Для 13B+ моделей используйте GPTQ/AWQ + CPU‑offload (llama.cpp/ggml) или разверните модель на сервере с большей VRAM. Ollama и text‑generation‑webui поддерживают множество форматов квантования (gguf, ggml, GPTQ).  
- Инструменты: AutoGPTQ, GGUF (llama.cpp/llama.cpp forks), AWQ — пробуйте несколько квантов, чтобы балансировать качество/скорость.

6) Пайплайн внедрения и доработка
- Начните с прототипа: 7B instruction‑tuned + простой RAG + Chroma/Qdrant + набор ваших документов (5–50) → проверить качество ответов, latency, потребности модификаций.  
- Настройка prompts и retrieval strategy (chunk size, overlap) часто сильнее влияет, чем смена модели.  
- Если нужно убрать специфические ошибки/шаблоны — добавить векторный индекс кейсов/часто задаваемых вопросов + reranking. Для корпоративной кастомизации можно делать LoRA/PEFT на небольших наборах примеров (если модель и лицензия это позволяют).  
- Мониторинг: отслеживайте кейсы с галлюцинациями, ложными фактами, утечками PII.

7) Инструменты, которые облегчат интеграцию
- LangChain (document loaders, RAG patterns) — можно использовать локально.  
- Ollama / text‑generation‑webui / vLLM / text‑generation‑inference для сервиса inference.  
- Chroma / Qdrant / Milvus как векторный индекс.  
- unstructured, pdfplumber, Tika, Tesseract, Camelot — для извлечения.

8) С точки зрения безопасности и лицензий
- Проверяйте лицензию каждой модели перед коммерческим использованием. Некоторые открытые веса могут иметь ограничения.  
- Для конфиденциальных документов лучше держать всё on‑premise (модель + индекс) и отключить исходящий доступ в сеть.

9) Резюме — что сделать сейчас
- Шаг 1: прототип на 7B: разверните одну instruction‑tuned 7B модель в Ollama/text‑webui в gguf/GPTQ квантовании.  
- Шаг 2: подключите парсинг файлов + OCR → сделайте RAG через Qdrant/Chroma.  
- Шаг 3: тестируйте на реальных документах, настройте prompt templates и параметры retrieval.  
- Шаг 4: при необходимости масштабируйте (13B+ или облако) или делайте LoRA‑адаптацию для корпоративной тематики.

Если хотите, могу:
- помочь подобрать конкретные модели, которые уже доступны в Ollama на данный момент (и какие из них лучше конвертируются в gguf/GPTQ), или
- дать пример архитектуры с конкретными компонентами (команды установки, ссылки на загрузку популярных парсеров/OCR и конфиги для Ollama/text‑ui) исходя из вашего железа.

Напишите, что вам важнее: максимальная точность анализа документов, скорость/латентность, или строгое on‑premise хранение данных — и я подберу конкретные модели и команды развертывания для вашего набора ПО.

Answer 2

Тестирую всё, что выходит на hugging face до 9b, сейчас для русского языка топ это Qwen 3.5, в вашем случае это 9b, либо 4b. Каких-то альтернатив сейчас особо нет, если только не взять видеопамяти побольше - тогда идеальным вариантом было бы поставить Gemma 4 26b A4b, либо тот же Qwen 3.6 35b A3b.

Answer 3

Ни одна из указанных не подходит для ваших задач. <br/> <br/> Я игрался с qwen3.6-35b-a3b, скорость примерно такая же как у тех что у вас в списке, требования к ram/vram порядка 32гб, на процессоре примерно в 10 раз медленнее чем на двух nvidia 4060ti 16гб (на них порядка 20ток/сек). <br/> <br/> Мощности модели хватает даже для решения простых задач на qwen coder agent (проблема когда контекст вырастает до 100к токенов, начинает тупить, где то решаемо но полной автономии достигнуть не просто). <br/> <br/> Модель прекрасно умеет vision, отлично следует инструкциям и не глючит с итоговыми форматами, по тестам можно как большие версии предыдущих. <br/> <br/> P s. Современные модели не могут обрабатывать данные напрямую, но могут помочь написать код для этого

Answer 4

qwen2.5vl:7b — берёшь если нужен vision (документы, таблицы, скрины). В ollama есть, на q4 ~6гб VRAM, в 4070 влезает спокойно. <br/> <br/> для tools/агента — qwen3:8b, там function calling нормально работает. <br/> <br/> в open webui оба можно поднять и переключаться под задачу

Answer 5

У меня была достаточно специфичная задача - найти хорошую локальную модель для roleplay при очень ограниченном железе. Так вот, ни одно dense модель до 12B не дала примлемого результата. Тем более MoE - там вообще крах. Самый хороший результат я получил от Mistral-based моделей. Qwen тоже неплохо. Но повторюсь - roleplay это больше про работу с языковыми конструкциями (для чего LLM в общем-то и предназначена), как это всё работает с конкретными инструментами... хз

Answer 6

Можно посмотреть на модели побольше. Типа Qwen3.6-35B-A3B. Напрямую в llama.cpp можно добиться скорости работы на вашем оборудовании более 20т/с, единственное на счет ОЗУ не уверен. Как бы хватает, но у меня по факту чуть за 40ГБ занято когда запущена, однако еще в фоне куча всего крутится, так что может быть если чисто под эту задачу то 32ГБ будет нормально. Поддерживает Vision (причем очень хорошо), Tools, Reasoning (можно включить/выключить), русский язык. Но нужно использовать квантованную версию (Q6 примерно) с настройкой через llama.cpp. Я крайне сомневаюсь что автоматические параметры которые задает ollama смогут выдать приемлемый уровень производительности на вашем оборудовании. P.S. Ну 20т/с это конечно не прямо быстро. Но зато качество действительно на высоте, вряд ли что то лучшее на все еще примерной скорости на вашем оборудовании возможно. По крайней мере стоит попробовать, а потом уже решать нужна ли больше скорость ценой потери качества или так нормально.