A Nvidia anunciou a Fugatto, uma nova plataforma de inteligência artificial (IA) generativa projetada para criar músicas, vozes e efeitos sonoros com base em comandos de texto ou áudio. A tecnologia é uma iniciativa da empresa para oferecer soluções avançadas de áudio para profissionais de publicidade, design de jogos e produção musical.
Com capacidade para gerar sons inéditos e realizar edições precisas, a Fugatto foi desenvolvida com uma base de dados robusta e tecnologias de GPUs de alta performance. Embora ainda não esteja disponível comercialmente, a ferramenta promete inovar na forma como conteúdo sonoro é produzido.
Como funciona a Fugatto?
O sistema opera com o recurso ComposableART, que possibilita ações multimodais na criação de áudio. Em termos práticos, isso significa que a IA pode combinar dados de diferentes fontes para realizar tarefas avançadas, como isolar vocais de músicas ou alterar a melodia e os instrumentos de uma composição.
A Nvidia também destacou que é possível criar ambientações sonoras completas com prompts textuais bem detalhados. Outra funcionalidade é a geração de vozes sintéticas, com ajustes de sotaque e entonação. Essas possibilidades ampliam o uso da plataforma em projetos criativos e experimentais que envolvem música e som.
Polêmicas e limitações
Apesar do potencial, a Fugatto enfrenta desafios relacionados ao uso de dados para treinamento. A Nvidia não revelou as fontes utilizadas para alimentar a IA, o que gerou questionamentos sobre possíveis violações de direitos autorais. Esse é um ponto que tem levantado debates éticos no setor de IA generativa, especialmente em relação à coleta e utilização de conteúdos disponíveis na internet.
Outro fator a ser considerado é a indisponibilidade comercial da Fugatto. A empresa ainda não forneceu detalhes sobre a liberação da ferramenta para o público, restringindo o acesso a demonstrações e estudos internos.
Recursos e possibilidades adicionais da Fugatto
A Fugatto vai além da simples criação de sons e músicas a partir de textos. Entre suas funções mais curiosas está a capacidade de produzir sons inéditos, como uma trombeta que late ou um saxofone que mia. Também é possível criar paisagens sonoras que mudam com o tempo, como uma tempestade que se transforma no som do amanhecer com pássaros cantando. Essas possibilidades surgem de uma técnica que permite ajustar como o som evolui, dando mais controle ao usuário sobre cada detalhe.
Outra funcionalidade interessante é a combinação de características personalizadas. Por exemplo, é possível criar uma voz que misture sotaques ou altere o tom emocional. Isso abre caminho para usos criativos em áreas como publicidade e jogos. Segundo os desenvolvedores, o modelo consegue realizar tarefas que não foram diretamente treinadas nele, tornando a ferramenta mais versátil e adaptável.
O futuro da IA na criação sonora
O lançamento da Fugatto ocorre em um momento de expansão das tecnologias de IA voltadas para a criatividade. Segundo Rafael Valle, gerente de pesquisa de áudio aplicada na Nvidia, o objetivo é desenvolver modelos que compreendam e criem som de forma semelhante à percepção humana.
“Queríamos criar um modelo que entendesse e gerasse som como os humanos fazem. A Fugatto é nosso primeiro passo em direção a um futuro onde o aprendizado multitarefa não supervisionado em síntese e transformação de áudio emerge a partir da escala de dados e modelos.”
Valle destacou que a criação de uma base de dados robusta foi um dos maiores desafios. A abordagem incluiu estratégias para ampliar as tarefas que o modelo pode realizar, sem a necessidade de dados adicionais.
“A equipe empregou uma estratégia multifacetada para gerar dados e instruções que expandiram consideravelmente o alcance das tarefas que o modelo pode realizar, ao mesmo tempo em que alcançaram um desempenho mais preciso e permitiram novas tarefas sem a necessidade de dados adicionais.”
Embora a Nvidia tenha exibido o potencial da Fugatto em amostras de som, ainda não se sabe como a ferramenta será recebida em larga escala. O mercado criativo, que inclui música e design de jogos, segue atento às possibilidades e implicações do uso dessa tecnologia.
A Fugatto, por enquanto, permanece como um projeto de laboratório, mas sua proposta antecipa transformações na criação sonora e multimodal, com impacto direto na forma como conteúdos audiovisuais são produzidos.
Veja abaixo o Fugatto em funcionamento: