Atualmente é fácil distinguir quando um ser humano está a falar de quando é um sistema informático. A produção de discurso falado é demasiado artificial, mas isso poderá mudar com o sistema desenvolvido pela DeepMind, na Google. Estes investigadores criaram o WaveNet, uma rede neural que foi alimentada com as formas de áudio brutas captadas a partir de discurso falado por humanos. As formas de áudio são representações visuais do som, as ondas criadas, por exemplo, em alguns leitores de MP3, explica o Engadget.
Com esta abordagem, o discurso da WaveNet parece mais com o de um ser humano do que se consegue com outros sistemas. A equipa anunciou que esta solução permite reduzir a diferença entre o discurso tecnológico e o de um ser humano em 50%.
Este é o site para ouvir algumas das amostras produzidas pela DeepMind.