Nvidia apresenta Fugatto, IA generativa que transforma texto em música, voz e efeitos sonoros

Nova ferramenta da Nvidia é voltada para indústrias criativas. Fugatto utiliza 2,5 bilhões de parâmetros para produzir sons inéditos
Picture of Nathália Pandeló
Nathália Pandeló
Nvidia - Fugatto
Nvidia lança Fugatto (Crédito: Reprodução)

A Nvidia anunciou a Fugatto, uma nova plataforma de inteligência artificial (IA) generativa projetada para criar músicas, vozes e efeitos sonoros com base em comandos de texto ou áudio. A tecnologia é uma iniciativa da empresa para oferecer soluções avançadas de áudio para profissionais de publicidade, design de jogos e produção musical.

Com capacidade para gerar sons inéditos e realizar edições precisas, a Fugatto foi desenvolvida com uma base de dados robusta e tecnologias de GPUs de alta performance. Embora ainda não esteja disponível comercialmente, a ferramenta promete inovar na forma como conteúdo sonoro é produzido.

Como funciona a Fugatto?

O sistema opera com o recurso ComposableART, que possibilita ações multimodais na criação de áudio. Em termos práticos, isso significa que a IA pode combinar dados de diferentes fontes para realizar tarefas avançadas, como isolar vocais de músicas ou alterar a melodia e os instrumentos de uma composição.

A Nvidia também destacou que é possível criar ambientações sonoras completas com prompts textuais bem detalhados. Outra funcionalidade é a geração de vozes sintéticas, com ajustes de sotaque e entonação. Essas possibilidades ampliam o uso da plataforma em projetos criativos e experimentais que envolvem música e som.

Polêmicas e limitações

Nvidia lança Fugatto (Crédito: Reprodução)
Nvidia lança Fugatto (Crédito: Reprodução)

Apesar do potencial, a Fugatto enfrenta desafios relacionados ao uso de dados para treinamento. A Nvidia não revelou as fontes utilizadas para alimentar a IA, o que gerou questionamentos sobre possíveis violações de direitos autorais. Esse é um ponto que tem levantado debates éticos no setor de IA generativa, especialmente em relação à coleta e utilização de conteúdos disponíveis na internet.

Outro fator a ser considerado é a indisponibilidade comercial da Fugatto. A empresa ainda não forneceu detalhes sobre a liberação da ferramenta para o público, restringindo o acesso a demonstrações e estudos internos.

Recursos e possibilidades adicionais da Fugatto

A Fugatto vai além da simples criação de sons e músicas a partir de textos. Entre suas funções mais curiosas está a capacidade de produzir sons inéditos, como uma trombeta que late ou um saxofone que mia. Também é possível criar paisagens sonoras que mudam com o tempo, como uma tempestade que se transforma no som do amanhecer com pássaros cantando. Essas possibilidades surgem de uma técnica que permite ajustar como o som evolui, dando mais controle ao usuário sobre cada detalhe.

Outra funcionalidade interessante é a combinação de características personalizadas. Por exemplo, é possível criar uma voz que misture sotaques ou altere o tom emocional. Isso abre caminho para usos criativos em áreas como publicidade e jogos. Segundo os desenvolvedores, o modelo consegue realizar tarefas que não foram diretamente treinadas nele, tornando a ferramenta mais versátil e adaptável.

O futuro da IA na criação sonora

O lançamento da Fugatto ocorre em um momento de expansão das tecnologias de IA voltadas para a criatividade. Segundo Rafael Valle, gerente de pesquisa de áudio aplicada na Nvidia, o objetivo é desenvolver modelos que compreendam e criem som de forma semelhante à percepção humana.

“Queríamos criar um modelo que entendesse e gerasse som como os humanos fazem. A Fugatto é nosso primeiro passo em direção a um futuro onde o aprendizado multitarefa não supervisionado em síntese e transformação de áudio emerge a partir da escala de dados e modelos.”

Valle destacou que a criação de uma base de dados robusta foi um dos maiores desafios. A abordagem incluiu estratégias para ampliar as tarefas que o modelo pode realizar, sem a necessidade de dados adicionais.

“A equipe empregou uma estratégia multifacetada para gerar dados e instruções que expandiram consideravelmente o alcance das tarefas que o modelo pode realizar, ao mesmo tempo em que alcançaram um desempenho mais preciso e permitiram novas tarefas sem a necessidade de dados adicionais.”

Embora a Nvidia tenha exibido o potencial da Fugatto em amostras de som, ainda não se sabe como a ferramenta será recebida em larga escala. O mercado criativo, que inclui música e design de jogos, segue atento às possibilidades e implicações do uso dessa tecnologia.

A Fugatto, por enquanto, permanece como um projeto de laboratório, mas sua proposta antecipa transformações na criação sonora e multimodal, com impacto direto na forma como conteúdos audiovisuais são produzidos.

Veja abaixo o Fugatto em funcionamento:

Leia mais: