Imita fala humana: nova IA do ChatGPT fala e ouve ao mesmo tempo

A OpenAI iniciou a liberação de um novo modelo de voz bidirecional para o ChatGPT, chamado internamente de "GPT-Bidi-1", de acordo com o TestingCatalog. A ferramenta altera a dinâmica atual de conversação ao permitir que a inteligência artificial ouça e fale de forma simultânea. O recurso está com o lançamento gradual para um grupo selecionado de usuários web e mobile do aplicativo, sem um anúncio oficial da empresa até o momento. ChatGPT grátis vale a pena? Veja o que dá e o que não dá para fazer Como criar uma rotina de estudos com ChatGPT do jeito certo O objetivo da atualização é aproximar a camada de voz das capacidades já existentes nos modelos de texto da companhia. A mudança estrutural tem como base a tese da OpenAI de que a fala se tornará o principal meio de acesso à inteligência artificial nos próximos anos. Interrupções naturais e maior retenção de contexto De acordo com testes iniciais e vazamentos de código do aplicativo, o GPT-Bidi-1 elimina a necessidade de alternância rígida de turnos entre o usuário e o sistema, ou seja, uma conversa em que alguém fala e alguém escuta. -Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.- Se o usuário interromper o ChatGPT no meio de uma resposta, o modelo consegue mudar o foco do assunto imediatamente, sem os travamentos e reinicializações que ocorrem na ferramenta de áudio atual. A nova arquitetura também traz as seguintes mudanças no comportamento da IA:
Ajustes de ritmo: o modelo emite pequenos avisos naturais, como um "okay", quando detecta que a pessoa reduziu a velocidade da fala ou fez uma pausa breve, sem cortar a transmissão;
Retenção de memória: a ferramenta mantém a linha de raciocínio ao longo de interações longas, corrigindo uma falha crônica do sistema anterior que descartava contextos antigos da conversa;
Silêncio prolongado: o robô deixa de dar respostas precipitadas durante pausas mais demoradas do interlocutor;
Direitos autorais estritos: o modelo mantém a capacidade de cantar e fazer beatbox, mas recusa reproduzir músicas populares protegidas por copyright, sugerindo composições inéditas no estilo do artista solicitado. A OpenAI, dona do ChatGPT, planeja fazer um IPO (abrir capital) ainda neste ano (Imagem: Marcelo Fischer/Canaltech) Mudanças na interface e tiers de processamento Visualmente, a ativação do modelo altera elementos da interface do usuário. O GPT-Bidi-1 aparece listado no menu de seleção de modelos, localizado nas configurações do ChatGPT, posicionado ao lado das opções padrão e avançada. Assim que o usuário seleciona o novo motor de voz, a bolha flutuante de conversação assume a cor amarela, substituindo o padrão visual anterior. Diferente do atual assistente de voz que utiliza o GPT-4o adaptado para áudio, o GPT-Bidi-1 foi desenvolvido especificamente para processamento de som em tempo real. A documentação interna indica que a funcionalidade operará com três divisões de inteligência: "High" (Alta), "Medium" (Média) e "Instant" (Instantânea). Essa separação replica a lógica dos modelos de texto, permitindo que o usuário escolha entre respostas de processamento imediato ou análises mais profundas e lentas. A tecnologia está em desenvolvimento desde o início de 2026 e a expectativa é que o modelo seja expandido em um formato de adesão opcional. Na sequência deste lançamento, a OpenAI planeja uma atualização de voz dedicada para a ferramenta de programação Codex e, posteriormente, a liberação de acesso via API para desenvolvedores externos. Leia a matéria no Canaltech.