Какая AI модель доступна для локальной обработки аудиофайлов с русским голосом?

Question

Лев

искусственный-интеллект , обработка-звука , машинное-обучение

Какая AI модель доступна для локальной обработки аудиофайлов с русским голосом?

У меня есть задача по преобразованию большого объема записей телефонных разговоров сотрудников с клиентами в текст. Существуют ли модели, которые хорошо работают с русским языком и могут быть установлены локально? В моем распоряжении имеется оборудование с видеокартой RTX 4090. Я в курсе, что transkribator.com предлагает неплохо обученную модель, но мне необходима оффлайн-версия из-за большого объема записей.

10 сентября 2024 г. 6:13

Ответы на вопрос 2

Похожие вопросы

Answer 1

Для локальной обработки аудиофайлов с русским голосом существует несколько моделей, которые могут вам подойти. Вот некоторые из них:

1. **Vosk**: Эта библиотека открытого исходного кода поддерживает множество языков, включая русский. Вы можете использовать модели Vosk для распознавания речи, и их можно запустить на локальном оборудовании. Vosk также хорошо работает на GPU, так что ваш RTX 4090 будет вам полезен.

2. **DeepSpeech**: Это открытый проект от Mozilla, который также может поддерживать русский язык. Однако для достижения хороших результатов может понадобиться дообучение модели на ваших данных.

3. **Kaldi**: Это один из самых мощных инструментов для распознавания речи, который также поддерживает русский язык. Он требует серьезных знаний для настройки и запуска, но может быть очень эффективным.

4. **Silero Models**: Модели от исследования Silero могут использоваться для распознавания речи на русском языке и могут быть запущены локально. Они также достаточно легкие в использовании.

5. **askey.ai**: Эта новая модель от Яндекса также может быть использована для распознавания речи и поддерживает русский язык. Возможно, потребуется проверка на тему локального развертывания, так как информация может изменяться.

6. **Whisper от OpenAI**: Whisper — это мощная модель для распознавания речи, которая поддерживает множество языков. Вы можете попробовать скачать и использовать Whisper на своем компьютере, она может быть достаточно эффективной в плане качества распознавания.

Перед выбором модели рекомендуется протестировать каждую из них на небольшом объеме данных, чтобы понять, какая из моделей покажет лучшие результаты в ваших условиях.

Answer 2

<a href="https://huggingface.co/openai/whisper-large-v3" rel="nofollow">whisper</a> от openai (apache2.0 лицензия) и его производные, на текущий момент лучшая модель общего назначения. Лицензия позволяет пользоваться этим но при включении его в тиражируемые продукты, лицензия на исходный код этих производных продуктов так же должен быть открыт. <br/> <br/> Так же модели по работе со звуком есть у всех топовых компаний,  например у мозиллы deepspeech и у фейсбука, и у гугла, и у китайского qwen и т.п. но под вопросом качество русского языка, <a href="https://huggingface.co/models?pipeline_tag=automatic-speech-recognition" rel="nofollow">полистай</a> , осторожно тут все в кучу свалено, не только прямая трансляция но и к примеру токенизаторы, векторизаторы и т.п.