Какое из следующих моделей — Qwen2.5-Coder-32b-IQ2_XS или Qwen2.5-Coder-14b-Q4_K_M — является более эффективным вариантом?

Question

Никита

нейронные-сети

Какое из следующих моделей — Qwen2.5-Coder-32b-IQ2_XS или Qwen2.5-Coder-14b-Q4_K_M — является более эффективным вариантом?

Здравствуйте! 

Не могу определиться, какая из моделей обеспечивает лучшее качество: Qwen2.5-Coder-32b с сильным квантованием IQ2_XS или Qwen2.5-Coder-14b с более слабым квантованием Q4_K_M. Обе модели имеют одинаковые показатели по потреблению ресурсов и скорости. 

После нескольких часов тестирования мне так и не удалось выяснить, какая из них лучше. Может, есть какие-то обзоры или исследования, либо кто-то может поделиться личным опытом в этом вопросе?

24 января 2025 г. 5:53

Ответы на вопрос 2

Похожие вопросы

Answer 1

Здравствуйте!

Выбор между моделями Qwen2.5-Coder-32b-IQ2_XS и Qwen2.5-Coder-14b-Q4_K_M может зависеть от конкретных задач и требований к качеству.

1. **Квантование**: Сильное квантование, как в модели IQ2_XS, может привести к снижению качества генерации, но в некоторых случаях оно может быть приемлемым, особенно если требования к качеству не слишком строгие. Модель с более слабым квантованием (Q4_K_M) может давать более высокое качество в задачах, где важно сохранять нюансы и точность.

2. **Размер модели**: Модель с большим числом параметров (32b против 14b) потенциально может иметь большую мощность. Однако это не всегда означает лучшее качество. Важно понять, как эти параметры влияют на вашу конкретную задачу.

3. **Тестирование**: Поскольку вы уже провели несколько часов тестирования, возможно, имеет смысл сосредоточиться на нескольких ключевых критериях: качество результатов, время обработки, читабельность и отклонения. Если есть возможность, попробуйте протестировать обе модели на одинаковом наборе данных для получения более объективного сравнения.

4. **Личный опыт**: Практически все модели ведут себя по-разному в зависимости от контекста использования. Может быть полезно обратиться к сообществам разработчиков, форумам или специализированным рецензиям для получения мнений других пользователей, которые могли бы тестировать эти модели на аналогичных задачах.

Если возможно, публикации или отчеты о сравнении моделей в вашем контексте также могут помочь сделать осознанный выбор.

Answer 2

Квантизация сильно ломает слабые модели, настоятельно не рекомендую 8..14 использовать с квантизацией меньше 8b, да и с ней будут проблемы 
 
 Лучшая локальная модель, с адекватным размером, на текущий момент - это дистиляция deepseek r1 какой-нибудь qwen 14b или 32b 
 
 Использовать с vllm, например deepseek-r1-qwen-14b с 32к контекстом, 8бит квантизацией, батчингом и местом для kv cache работает на 2x16gb ram (точнее от каждой тратится по ~14gb), на 2x4060ti 16gb (стоят по 50т.р., это самая доступная gpu с самым дешевым vram) или используй какой-нибудь vast.ai, с одиночным запросом работает 20-30 токен/сек, а если одновременно 16 запустить, разгоняется до 250-500 токен/сек 
 
 deepseek r1 это рассуждающие модели, поддерживают только английский и китайский, это 'рассуждающие' модели, отмечает рассуждения в ответе тегом .... Благодаря хорошей скорости в режиме батчинг, можно один и тот же вопрос задавать одновременно несколько раз, и сравнивать ответ (можно попросить ее же сравнить), тот что выдан чаще - тот считать верным. 
 
 Программирование у deepseek неожидано хорошее, да и в простой логике отвечает неплохо (тест на количество братьев у сестры могут накосячить и топовые сети, эта выдаст неправильный в 3 из 16 запросах, и если изучить ее рассуждения, там прямо так и пишет что люди могут на этот вопрос ответить вот так поэтому пишем неверное число), подчеркиваю, на модели 14b, а уж оригинальная MoE на 600b и подавно шаг в шаг идет с топами.