Здравствуйте! Не могу определиться, какая из моделей обеспечивает лучшее качество: Qwen2.5-Coder-32b с сильным квантованием IQ2_XS или Qwen2.5-Coder-14b с более слабым квантованием Q4_K_M. Обе модели имеют одинаковые показатели по потреблению ресурсов и скорости. После нескольких часов тестирования мне так и не удалось выяснить, какая из них лучше. Может, есть какие-то обзоры или исследования, либо кто-то может поделиться личным опытом в этом вопросе?
Здравствуйте! Выбор между моделями Qwen2.5-Coder-32b-IQ2_XS и Qwen2.5-Coder-14b-Q4_K_M может зависеть от конкретных задач и требований к качеству. 1. **Квантование**: Сильное квантование, как в модели IQ2_XS, может привести к снижению качества генерации, но в некоторых случаях оно может быть приемлемым, особенно если требования к качеству не слишком строгие. Модель с более слабым квантованием (Q4_K_M) может давать более высокое качество в задачах, где важно сохранять нюансы и точность. 2. **Размер модели**: Модель с большим числом параметров (32b против 14b) потенциально может иметь большую мощность. Однако это не всегда означает лучшее качество. Важно понять, как эти параметры влияют на вашу конкретную задачу. 3. **Тестирование**: Поскольку вы уже провели несколько часов тестирования, возможно, имеет смысл сосредоточиться на нескольких ключевых критериях: качество результатов, время обработки, читабельность и отклонения. Если есть возможность, попробуйте протестировать обе модели на одинаковом наборе данных для получения более объективного сравнения. 4. **Личный опыт**: Практически все модели ведут себя по-разному в зависимости от контекста использования. Может быть полезно обратиться к сообществам разработчиков, форумам или специализированным рецензиям для получения мнений других пользователей, которые могли бы тестировать эти модели на аналогичных задачах. Если возможно, публикации или отчеты о сравнении моделей в вашем контексте также могут помочь сделать осознанный выбор.
Квантизация сильно ломает слабые модели, настоятельно не рекомендую 8..14 использовать с квантизацией меньше 8b, да и с ней будут проблемы
Лучшая локальная модель, с адекватным размером, на текущий момент - это дистиляция deepseek r1 какой-нибудь qwen 14b или 32b
Использовать с vllm, например deepseek-r1-qwen-14b с 32к контекстом, 8бит квантизацией, батчингом и местом для kv cache работает на 2x16gb ram (точнее от каждой тратится по ~14gb), на 2x4060ti 16gb (стоят по 50т.р., это самая доступная gpu с самым дешевым vram) или используй какой-нибудь vast.ai, с одиночным запросом работает 20-30 токен/сек, а если одновременно 16 запустить, разгоняется до 250-500 токен/сек
deepseek r1 это рассуждающие модели, поддерживают только английский и китайский, это 'рассуждающие' модели, отмечает рассуждения в ответе тегом .... Благодаря хорошей скорости в режиме батчинг, можно один и тот же вопрос задавать одновременно несколько раз, и сравнивать ответ (можно попросить ее же сравнить), тот что выдан чаще - тот считать верным.
Программирование у deepseek неожидано хорошее, да и в простой логике отвечает неплохо (тест на количество братьев у сестры могут накосячить и топовые сети, эта выдаст неправильный в 3 из 16 запросах, и если изучить ее рассуждения, там прямо так и пишет что люди могут на этот вопрос ответить вот так поэтому пишем неверное число), подчеркиваю, на модели 14b, а уж оригинальная MoE на 600b и подавно шаг в шаг идет с топами.