QTU | O que é Sarvam Audio, IA para transcrever mensagens e gravações de voz?

O que é Sarvam Audio, IA para transcrever mensagens e gravações de voz?

Fonte:

A startup indiana Sarvam AI promete estabelecer novos padrões de reconhecimento de fala para línguas indianas com o lançamento do Sarvam Audio. Segundo a empresa, o sistema de transcrição foi treinado para compreender a complexidade da comunicação do mundo real. MiniMax Audio: conheça IA capaz de converter texto para fala e criar locuções 5 ferramentas que transcrevem áudios para acelerar os estudos Classificada como uma extensão do Sarvam 3B — modelo de linguagem com 3 bilhões de parâmetros —, a ferramenta se destaca por oferecer suporte a 22 idiomas indianos, além do inglês. Um de seus principais diferenciais é a capacidade de lidar com o que é conhecido como code-mixing. Isso significa que a plataforma de inteligência artificial consegue transcrever com alta eficiência frases em que o falante mistura palavras de diferentes idiomas. Essa prática é comum em países multilíngues, mas ainda representa um desafio para sistemas tradicionais de transcrição. -Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.- A companhia afirma ainda que o Sarvam Audio foi projetado não apenas para transformar áudio em texto, mas também para identificar o contexto da fala e otimizar o resultado final da transcrição. “O contexto é essencial para decodificar áudio do mundo real. A estrutura baseada em LLM permite que o Sarvam Audio aproveite o contexto fornecido por meio de descrições textuais ou do histórico de conversas para melhorar significativamente a qualidade da transcrição em cenários complexos”, destaca a Sarvam AI em comunicado. Controle sobre a formatação do texto transcrito Outro diferencial da IA de transcrição da Sarvam é permitir que o usuário escolha o formato final do texto. O sistema disponibiliza cinco modos distintos:

Transcrição literal: registra cada palavra exatamente como foi dita, sendo indicada para serviços de atendimento ao cliente;

Normalizado sem code-mixing: apresenta o texto com pontuação adequada e conversão de números falados em dígitos, recomendado para e-commerce;

Normalizado com code-mixing: considerado o “melhor dos dois mundos”, mantém o alfabeto nativo, mas preserva termos em inglês no alfabeto romano. É ideal para bancos e fintechs;

Saída romanizada: transcreve todo o áudio para o alfabeto romano, tornando o texto legível para qualquer pessoa, sendo indicado para WhatsApp Business e interações via chat;

Tradução inteligente: permite que o usuário fale em qualquer idioma indiano e receba a transcrição integralmente em inglês, alternativa voltada a criadores de conteúdo que desejam alcançar um público global. Memória conversacional e múltiplos falantes O Sarvam Audio também promete utilizar memória conversacional para evitar confusão entre termos que soam de forma semelhante durante a transcrição. Na prática, isso significa que o sistema consegue interpretar o que foi dito com base no contexto das falas anteriores. Além disso, a ferramenta de IA consegue identificar quem está falando em uma gravação. O material de anúncio indica que o sistema é capaz de processar áudios de até 60 minutos, atribuindo falas a até oito participantes de uma reunião com alto nível de precisão. Esse recurso é especialmente útil no processamento de reuniões, entrevistas e outras conversas que envolvem múltiplos participantes e até mesmo falas sobrepostas. Sarvam Audio consegue identificar com eficiência a voz de até 8 falantes presentes em uma reunião (Imagem: Pexels/Anna Shvets) Comandos diretos e desempenho frente a outros modelos Outra funcionalidade que pode diferenciar o Sarvam Audio de seus concorrentes é o recurso chamado Speech to Command, que elimina a necessidade de transcrever o áudio para, em seguida, outro modelo interpretar o texto e compreender o contexto — um processo que pode gerar atrasos e erros. Em vez disso, o sistema da startup indiana realiza uma operação de "ponta a ponta", sendo capaz de ouvir o áudio e extrair simultaneamente os dados técnicos e comandos necessários para executar ações de forma quase imediata. Em termos de precisão, a Sarvam AI afirma que sua solução supera modelos consolidados, como o GPT-4o Transcribe e o Gemini 3 Flash, em benchmarks específicos. Os testes indicariam maior eficácia na preservação de nomes próprios, endereços e na diferenciação de palavras com sonoridade semelhante. Disponibilidade A startup informa que o Sarvam Audio estará disponível “em breve” no Sarvam Dashboard, mas ainda não divulgou detalhes sobre preços ou modelos de acesso ao sistema. Leia mais: Audacity ganha IA para transcrever áudios e gerar músicas Meta lança IA capaz de extrair o áudio de qualquer arquivo; confira Voz gerada por IA já é indistinguível da humana — mas ainda não é hiper-realista VÍDEO: O Gemini é muito bom (e isso é um problema) Leia a matéria no Canaltech.