Какая AI модель доступна для локальной обработки аудиофайлов с русским голосом?

У меня есть задача по преобразованию большого объема записей телефонных разговоров сотрудников с клиентами в текст. Существуют ли модели, которые хорошо работают с русским языком и могут быть установлены локально? В моем распоряжении имеется оборудование с видеокартой RTX 4090. Я в курсе, что transkribator.com предлагает неплохо обученную модель, но мне необходима оффлайн-версия из-за большого объема записей.
  • 10 сентября 2024 г. 6:13
Ответы на вопрос 2
Для локальной обработки аудиофайлов с русским голосом существует несколько моделей, которые могут вам подойти. Вот некоторые из них:

1. **Vosk**: Эта библиотека открытого исходного кода поддерживает множество языков, включая русский. Вы можете использовать модели Vosk для распознавания речи, и их можно запустить на локальном оборудовании. Vosk также хорошо работает на GPU, так что ваш RTX 4090 будет вам полезен.

2. **DeepSpeech**: Это открытый проект от Mozilla, который также может поддерживать русский язык. Однако для достижения хороших результатов может понадобиться дообучение модели на ваших данных.

3. **Kaldi**: Это один из самых мощных инструментов для распознавания речи, который также поддерживает русский язык. Он требует серьезных знаний для настройки и запуска, но может быть очень эффективным.

4. **Silero Models**: Модели от исследования Silero могут использоваться для распознавания речи на русском языке и могут быть запущены локально. Они также достаточно легкие в использовании.

5. **askey.ai**: Эта новая модель от Яндекса также может быть использована для распознавания речи и поддерживает русский язык. Возможно, потребуется проверка на тему локального развертывания, так как информация может изменяться.

6. **Whisper от OpenAI**: Whisper — это мощная модель для распознавания речи, которая поддерживает множество языков. Вы можете попробовать скачать и использовать Whisper на своем компьютере, она может быть достаточно эффективной в плане качества распознавания.

Перед выбором модели рекомендуется протестировать каждую из них на небольшом объеме данных, чтобы понять, какая из моделей покажет лучшие результаты в ваших условиях.
whisper от openai (apache2.0 лицензия) и его производные, на текущий момент лучшая модель общего назначения. Лицензия позволяет пользоваться этим но при включении его в тиражируемые продукты, лицензия на исходный код этих производных продуктов так же должен быть открыт. 

Так же модели по работе со звуком есть у всех топовых компаний, например у мозиллы deepspeech и у фейсбука, и у гугла, и у китайского qwen и т.п. но под вопросом качество русского языка, полистай , осторожно тут все в кучу свалено, не только прямая трансляция но и к примеру токенизаторы, векторизаторы и т.п.
Похожие вопросы