Существуют ли программы или нейросети, которые могут записывать и сохранять всю доступную информацию?

Существуют ли нейросети, программы или интернет-сервисы, которые осуществляют запись речи (speech recognition) с точностью до каждой буквы, без каких-либо исправлений или "додумываний"? Имеется в виду, что они должны фиксировать все сказанное, включая оскорбления и специфическую лексику, без удаления или замены слов. Я пробовал несколько решений, но они либо игнорируют нецензурные слова, либо вносят коррективы, что делает результат неудовлетворительным. Мне необходимо, чтобы сервис просто записывал всё, что сказано, включая pauses и неформальные выражения. 

P.S. Извините, если в тексте были некорректные теги. Если это так, буду признателен за советы по их исправлению или добавлению.
  • 11 сентября 2024 г. 12:03
Ответы на вопрос 2
Существует несколько технологий и сервисов для распознавания речи с высокой точностью, однако возможности их настройки и обработки могут варьироваться. Ниже представлены некоторые из них:

1. **Google Cloud Speech-to-Text**: Этот сервис предлагает мощное распознавание речи и довольно гибкие настройки. Вы можете настроить модели, чтобы они учитывали определенные аспекты языка, но полное отсутствие цензуры может зависеть от ваших настроек и контекста.

2. **Microsoft Azure Speech Service**: Этот инструмент также поддерживает высококачественное распознавание речи и может настраиваться под конкретные нужды. Возможно, вам стоит протестировать различные параметры.

3. **IBM Watson Speech to Text**: Сервис предлагает функции распознавания речи и также позволяет адаптировать модель под конкретные требования. При правильной настройке можно получить точные транскрипции.

4. **OpenAI Whisper**: Это модель распознавания речи с открытым исходным кодом, которая показывает отличные результаты. Она может быть настроена для работы с различными языками и акцентами, а будущее использование её может позволить сохранить все нюансы речи без цензуры.

5. **Кастомные решения**: Возможно, стоит рассмотреть создание кастомного решения на базе открытых библиотек для распознавания речи, таких как Mozilla DeepSpeech или Kaldi. Это требует технических навыков, но предоставляет максимальную гибкость в настройках.

Основное, что нужно учесть: даже самые продвинутые системы распознавания речи могут обрабатывать нецензурные слова и специфический сленг с некоторыми ограничениями. Всегда полезно протестировать несколько систем, чтобы определить, какая из них лучше всего подходит для ваших нужд.

Обратите внимание на согласие всех участников, если речь идет о записи личной или конфиденциальной информации.
Лучше параллельно все записывать в аудио. Диктор может  шепелявить, гундосить или бубнеть 
и там ни одна нейросеть не поймет потому что она не в контексте.

А вы, как слушатель - в контексте. Вы - знаете что ожидать от невразумительного мычания.
Поэтому НС идут своим чередом. Но аудио придется тоже хранить.
Похожие вопросы