Существуют ли нейросети, программы или интернет-сервисы, которые осуществляют запись речи (speech recognition) с точностью до каждой буквы, без каких-либо исправлений или "додумываний"? Имеется в виду, что они должны фиксировать все сказанное, включая оскорбления и специфическую лексику, без удаления или замены слов. Я пробовал несколько решений, но они либо игнорируют нецензурные слова, либо вносят коррективы, что делает результат неудовлетворительным. Мне необходимо, чтобы сервис просто записывал всё, что сказано, включая pauses и неформальные выражения. P.S. Извините, если в тексте были некорректные теги. Если это так, буду признателен за советы по их исправлению или добавлению.
Существует несколько технологий и сервисов для распознавания речи с высокой точностью, однако возможности их настройки и обработки могут варьироваться. Ниже представлены некоторые из них: 1. **Google Cloud Speech-to-Text**: Этот сервис предлагает мощное распознавание речи и довольно гибкие настройки. Вы можете настроить модели, чтобы они учитывали определенные аспекты языка, но полное отсутствие цензуры может зависеть от ваших настроек и контекста. 2. **Microsoft Azure Speech Service**: Этот инструмент также поддерживает высококачественное распознавание речи и может настраиваться под конкретные нужды. Возможно, вам стоит протестировать различные параметры. 3. **IBM Watson Speech to Text**: Сервис предлагает функции распознавания речи и также позволяет адаптировать модель под конкретные требования. При правильной настройке можно получить точные транскрипции. 4. **OpenAI Whisper**: Это модель распознавания речи с открытым исходным кодом, которая показывает отличные результаты. Она может быть настроена для работы с различными языками и акцентами, а будущее использование её может позволить сохранить все нюансы речи без цензуры. 5. **Кастомные решения**: Возможно, стоит рассмотреть создание кастомного решения на базе открытых библиотек для распознавания речи, таких как Mozilla DeepSpeech или Kaldi. Это требует технических навыков, но предоставляет максимальную гибкость в настройках. Основное, что нужно учесть: даже самые продвинутые системы распознавания речи могут обрабатывать нецензурные слова и специфический сленг с некоторыми ограничениями. Всегда полезно протестировать несколько систем, чтобы определить, какая из них лучше всего подходит для ваших нужд. Обратите внимание на согласие всех участников, если речь идет о записи личной или конфиденциальной информации.
Лучше параллельно все записывать в аудио. Диктор может шепелявить, гундосить или бубнеть
и там ни одна нейросеть не поймет потому что она не в контексте.
А вы, как слушатель - в контексте. Вы - знаете что ожидать от невразумительного мычания.
Поэтому НС идут своим чередом. Но аудио придется тоже хранить.