Для синтеза голоса часто используются рекуррентные нейронные сети (RNNs) и их усовершенствованные версии, такие как долгая краткосрочная память (LSTM) и сверточные нейронные сети (CNNs). Глубокие нейронные сети, такие как генеративно-состязательные сети (GANs) и вариационные автокодировщики (VAEs), также используются для синтеза голоса.
Некоторые из наиболее популярных нейросетей, которые доступны для синтеза речи на основе предоставленной звуковой дорожки с голосом, включают в себя WaveNet от Google, Tacotron 2 от DeepMind, и Deep Voice от Baidu. Эти нейросети обучены распознаванию и воспроизведению голоса с высоким качеством и естественной интонацией.