Publicado originalmente em IAEdPraxis: Caminhos Inteligentes para a Educação, em 25 de julho de 2024.
Vozes mecânicas, com entonação monótona e pronúncia por vezes incompreensível. Por bom tempo a tecnologia de text-to-speech (TTS), isto é, a capacidade de transformar texto escrito em fala audível, gerou resultados parecidos com os robôs imaginados das obras de ficção científica dos anos 1960.
Mas agora, com a chegada da IA generativa e dos algoritmos de aprendizagem profunda, o cenário está mudando. E rápido. As atuais ferramentas são capazes de emular as nuances da voz humana, incluindo entonação, emoção, ritmo e mesmo sutis regionalismos da fala. Quando somamos a possibilidade de clonagem de vozes individuais, chegamos a um novo patamar no qual a distinção entre a voz sintética e humana praticamente desaparece.
Cabe ressaltar: esta aptidão das ferramentas mais sofisticadas é fruto da interpretação, por parte da IA, do contexto original do texto, ajustando a narração de acordo com o conteúdo.
Dessa forma, não estamos diante de uma simples melhoria técnica, mas potencialmente de uma mudança na forma como vamos integrar o aspecto multimodal da informação e do conhecimento em nossas práticas pedagógicas.
Desde o engajamento estudantil até a acessibilidade, as áreas de aplicação são amplas, ainda que estes possíveis benefícios venham acompanhados de uma série de riscos.
Você gostaria de ouvir esta edição da newsletter? Texto gerado com auxílio do Prompt da Semana e aúdio produzido pelo TTS Maker. A voz não é minha, é a do “Antonio”.
Por trás das motivações da voz sintética
Antes de explorarmos os usos do TSS na Educação, cabe perguntar o “por quê”. Qual a razão de utilizar uma IA, quando temos a disposição a natural e sofisticada tecnologia que é a voz humana?
A resposta é facilmente encontrada na polêmica que envolve o “fim” da profissão de dubladores: facilidade, praticidade e, consequentemente, redução de custos.
Gravar áudio límpido, preciso, de “qualidade”, é desafiador. Mais além de equipamentos de alto custo, uma gravação de nível profissional envolve um controle preciso condições ambientais de captação. O isolamento acústico para diminuir ecos e reverberações, por exemplo, surge como um desafio.
Pelo lado humano da equação, uma gravação requer preparação vocal, treino, experiência. Além dos erros inevitáveis, as diversas “falhas” do discurso humano, como hesitações, pigarreio e vícios como o uso repetitivo de marcadores do discurso, a exemplo do “né” estão presentes. E logo, a fadiga vocal chega em relativamente pouco tempo para a maioria de nós.
Em sua essência de informação digital, a voz sintética facilita a atualização e a manutenção de conteúdos, permitindo modificações rápidas. Esta quebra com a realidade física vem na independência em relação a um locutor específico e sua disponibilidade.
Por fim, numa perspectiva do que pode ser realizada somente no domínio digital, o TTS possibilita a geração de vozes que essencialmente não existem no mundo real, como a de alienígenas ou outros personagens da mitologia e a ficção.
Aplicações e perspectiva de inovação pedagógica
Iniciando por um tema que já abordamos aqui, a produção e adaptação de materiais didáticos visando a inclusão e a equidade educacional, o TTS “dá voz” aos textos escritos. Assim, pessoas com deficiência visual ou dislexia podem contar com áudios convertidos, tendo seu acesso ao conhecimento facilitado.
Entre a acessibilidade e a elaboração de recursos didáticos em formatos diferentes do texto escrito, a geração de voz sintética também pode ser utilizada para a criação de audiolivros sob demanda. A ideia seria atender às necessidades específicas dos estudantes.
Já a possibilidade de geração de um mesmo discurso em vários idiomas abre as portas para integrar estes recursos educacionais numa perspectiva multi e intercultural. A dublagem em outros idiomas de aulas gravadas e vídeos educativos expandem o acesso ao conhecimento.
No campo da aprendizagem de idiomas, a pronúncia correta de textos em línguas estrangeiras contribui para o aprimoramento das habilidades linguísticas dos estudantes.
E considerando a dimensão afetiva do processo pedagógico, o feedback oral através de comentários, correções ou mensagens de incentivo podem acrescentar um tom mais pessoal e emocional a espaços mediados tecnologicamente.
Um exemplo seriam os Ambientes Virtuais de Aprendizagem utilizados na Educação a Distância (EaD), frequentemente limitados ao modo textual de comunicação e interação.
A linguagem por trás da voz: SSML
Além da capacidade interpretativa dos sistemas TTS baseados em IA, existe a possibilidade de agência humana (human on the loop, humano na supervisão) em seu uso. Através do Speech Synthesis Markup Language (SSML, linguagem de marcação de síntes de voz, em inglês), é possível ajustar a entonação, o ritmo, as pausas e até mesmo a pronúncia de palavras específicas. Numa analogia, seria como aplicar o negrito num texto escrito, mas neste caso instruindo o sistema a enfatizar aquela palavra específica.
Com esta possibilidade de ajuste fino, vozes sintéticas e clonadas tenderão a atingir um nível de semelhança tal, o que automaticamente acende alguns alertas sobre seu uso.
Desafios e preocupações
Apesar dos avanços notáveis, o uso de TTS baseado em IA no contexto educacional não está isento de riscos e limitações. A coleta e o processamento de dados de voz levantam questões sérias sobre privacidade e segurança.
Se considerarmos que cada amostra de voz é, essencialmente, um dado biométrico único, tão pessoal quanto uma impressão digital, seu armazenamento e proteção suscitam grandes preocupações sobre seu uso indevido.
Além disso, a capacidade de clonar vozes com alta fidelidade abre uma caixa de Pandora ética. Se no plano sociopolítico há o risco das falsas imitações realistas (deepfakes) serem utilizadas para difamação e desinformação, o mesmo pode ocorrer com professores ou outras figuras de autoridade.
Até mesmo afirmações históricas nunca realizadas podem ser fabricadas a partir desta tecnologia, potencializando o negacionismo e terraplanismo (num sentido amplo).
Um exemplo de deepfake. Agora imaginem Olavo de Carvalho falando bem de Paulo Freire (sugestão Estefane Domingos).
Sobre custos e possibilidades
Também no “plano desafio” a síntese de voz por IA ainda é uma empreitada cara, como podemos ver pelos serviços a seguir. Os preços foram obtidos na modalidade de pagamento mensal e a cotação da moeda estrangeira segundo o câmbio de hoje.
39 dólares(220 reais), 250.000 caracteres por mês
1.022 caracteres/real
29 dólares (165 reais), 60 créditos/mês
1 crédito sendo 1 minuto de áudio = 43.478 caracteres
263 caracteres/real
9 dólares (50 reais), 100.000 caracteres, em pacote
2.000 caracteres/real
24,99 reais, 25.000 caracteres, em pacote
1.000 caracteres/real
12,99 dólares (73 reais)
300.000 caracteres por mês (aproximadamente 6.9 horas de áudio)
4.109 caracteres/real
Disponibiliza 20.000 caracteres por semana no plano gratuito
99 dólares (507 reais), 80,000 segundos, ou 966.000 caracteres por mês
1.095 caracteres por real
O acesso às vozes brasileiras está disponível somente no plano profissional, com o custo acima.
Logicamente, a variação de preços reflete os recursos disponíveis, como a clonagem de voz, uso de SSML, variedade de vozes disponíveis, espaços colaborativos de trabalho, entre outros.
Poderia ser de graça? Sim, mas com a qualidade impessoal e artificial que foi popularizada nas redes sociais de vídeos nos últimos tempos.
O caminho pela frente
A síntese de voz com voz similar à humana abre um leque de possibilidades num cenário de mediação pedagógica cada vez mais digitalizado. No entanto, como em todos outros campos da Inteligência Artificial aplicada à Educação, é um terreno que precisa ser trilhado com cautela e olhar crítico.
Um uso “desconfiado”, porém, vai mais além de simplesmente ler os termos de uso de cada ferramenta e de suas respectivas políticas de privacidade. Precisamos nos educar sobre os potenciais riscos e, inclusive nos perguntar se queremos, enquanto sociedade, utilizá-las ou não.