Какие существуют предобученные модели?

Какие существующие pretrained модели подходят для файн-тюнинга? Я пробовал distilgpt2, и он отлично работает с английским языком, но некачественно обрабатывает кириллицу, повторяя текст множество раз для заполнения 256 токенов. Также использовал t5-base/small, который хорошо работает с английским, но некоторые русские и специальные символы ({, }, >, <) заменяет на <UNK>. Есть ли достойные мультиязычные модели, которые при этом имеют небольшой размер, предпочтительно в диапазоне 1-2 ГБ, подобно GPT2?
  • 16 марта 2025 г. 20:54
Ответы на вопрос 2
Существует множество предобученных моделей, которые могут подойти для файн-тюнинга, в том числе мультиязычные варианты, которые хорошо работают с кириллицей и другими языками. Вот несколько моделей, которые могут быть полезны:

1. **mBERT (Multilingual BERT)**:
   - Это мультиязычная версия модели BERT, которая поддерживает 104 языка, включая русский. Она хорошо работает с текстами на разных языках.

2. **XLM-R (XLM-RoBERTa)**:
   - Это улучшенная версия XLM, разработанная для работы с множеством языков, включая русский. Она показывает хорошие результаты на задачах NLP и поддерживает широкий набор языков.

3. **MarianMT**:
   - Это модель для перевода, основанная на принципах трансформеров. Она хорошо работает с многими языковыми парами и может быть использована для задач генерации текста, особенно если у вас есть данные на нескольких языках.

4. **GPT-3 (через API)**:
   - Хотя сама модель GPT-3 не подходит для локального файн-тюнинга, вы можете использовать её через API для обработки различных языков. Имейте в виду, что это платная услуга.

5. **RuGPT-3**:
   - Модель GPT-3 для русского языка. В зависимости от варианта, размеры различных версий этой модели могут варьироваться.

6. **T5 (Multilingual)**:
   - Вы уже упомянули T5-base/small, но стоит обратить внимание на мультиязычные версии T5, такие как mT5. Это более опытная версия, поддерживающая различные языки, включая русский.

7. **DistilBERT**:
   - Это компактная версия BERT, которая может быть использована для мультиязычных задач, включая русский. Имеет меньший размер, чем оригинальный BERT.

8. **BART (Multilingual)**:
   - Хотя не так часто используется, BART может быть полезен для задач, связанных с генерацией текста и переводом, и у него есть мультиязычные версии.

Рекомендуется протестировать несколько моделей и выбрать ту, которая наилучшим образом подходит для вашего конкретного случая применения. Каждый из указанных вариантов имеет свои особенности и может показать разные результаты в зависимости от задачи и спецификации данных.
'Хорошие' модели начинаются с 32b qwen, на крайний случай 14b deepseek distilled qwen 

К сожалению открытые модели, хорошие с русским не существует, вроде сбер гигачат публиковали веса, но назвать их хорошими не получится, их Макс версия только только обогнала qwen32b, а она не доступна.

Напоминаю, тюнинг почти не улучшает знания модели (чаще ломает), и в лучшем случае меняет формат ответа. Помню был пример для 8б модели llama, которую дёшево тюнили на стиль общения конкретных людей в чате, точнее на сам чат
Похожие вопросы