Início Tecnologia O Google lança Gemma 4 no Apache 2.0 – e essa mudança...

O Google lança Gemma 4 no Apache 2.0 – e essa mudança de licença pode ser mais importante do que benchmarks

18
0

Nos últimos dois anos, as empresas que avaliaram modelos de peso aberto enfrentaram uma difícil compensação. A linha Gemma do Google apresentou consistentemente um forte desempenho, mas sua licença personalizada – com restrições de uso e termos que o Google poderia atualizar à vontade – empurrou muitas equipes para o Mistral ou o Qwen do Alibaba. A revisão jurídica acrescentou atrito. As equipes de conformidade sinalizaram casos extremos. E por mais capaz que fosse o Gemma 3, “aberto” com asteriscos não é o mesmo que aberto.

Gema 4 elimina totalmente esse atrito. A mais nova família de modelos abertos do Google DeepMind é fornecida sob um padrão Licença Apache 2.0 – os mesmos termos permissivos usados ​​por Qwen, Mistral, Arcee e a maior parte do ecossistema de peso aberto.

Nenhuma cláusula personalizada, nenhuma exclusão de “Uso Prejudicial” que exigisse interpretação authorized, nenhuma restrição à redistribuição ou implantação comercial. Para as equipes empresariais que esperavam que o Google jogasse nos mesmos termos de licenciamento do resto da área, a espera acabou.

O momento é notável. Como alguns laboratórios chineses de IA (principalmente os modelos Qwen mais recentes do Alibaba, Qwen3.5 Omni e Qwen 3.6 Plus) começaram a recuar dos lançamentos totalmente abertos para seus modelos mais recentes, o Google está se movendo na direção oposta – abrindo seu lançamento Gemma mais capaz até agora, ao mesmo tempo em que declara explicitamente que a arquitetura se baseia em seu comercial Gêmeos 3 pesquisar.

Quatro modelos, dois níveis: Da borda à estação de trabalho em uma única família

Gemma 4 chega como quatro modelos distintos organizados em duas camadas de implantação. A camada “estação de trabalho” inclui um Modelo denso de 31 parâmetros B e um Modelo de mistura de especialistas 26B A4B – ambos com suporte para entrada de texto e imagem com janelas de contexto de token de 256 mil. A camada “borda” consiste no E2B e E4Bmodelos compactos projetados para telefones, dispositivos incorporados e laptops, com suporte para texto, imagem e áudio com janelas de contexto de token de 128K.

A convenção de nomenclatura exige alguma descompactação. O prefixo “E” denota “parâmetros efetivos” – o E2B tem 2,3 bilhões de parâmetros efetivos, mas 5,1 bilhões no whole, porque cada camada decodificadora carrega sua própria pequena tabela de incorporação por meio de uma técnica que o Google chama Incorporações por camada (PLE). Essas tabelas são grandes em disco, mas baratas para calcular, e é por isso que o modelo funciona como um 2B, embora tecnicamente pese mais.

O “A” em 26B A4B significa “parâmetros ativos” – apenas 3,8 bilhões dos 25,2 bilhões de parâmetros totais do modelo MoE são ativados durante a inferência, o que significa que ele fornece inteligência de classe aproximadamente 26B com custos de computação comparáveis ​​a um modelo 4B.

Para os líderes de TI que dimensionam os requisitos de GPU, isso se traduz diretamente em flexibilidade de implantação. O modelo MoE pode ser executado em GPUs de consumo e deve aparecer rapidamente em ferramentas como Ollama e LM Studio. O modelo denso de 31B requer mais espaço – pense em um NVIDIA H100 ou RTX 6000 Professional para inferência não quantizada – mas o Google também está enviando Pontos de verificação do treinamento com reconhecimento de quantização (QAT) para manter a qualidade com menor precisão. No Google Cloud, ambos os modelos de estação de trabalho agora podem ser executados em uma configuração totalmente sem servidor por meio de Execução na nuvem com GPUs NVIDIA RTX Professional 6000, girando até zero quando ocioso.

A aposta do MoE: 128 pequenos especialistas para economizar nos custos de inferência

As escolhas arquitetônicas dentro do modelo 26B A4B merecem atenção especial das equipes que avaliam a economia de inferência. Em vez de seguir o padrão dos grandes modelos recentes do MoE que utilizam um punhado de grandes especialistas, o Google optou por 128 pequenos especialistasativando oito por token mais um especialista sempre ativo compartilhado. O resultado é um modelo que faz benchmarking competitivo com modelos densos na faixa 27B–31B enquanto roda aproximadamente na velocidade de um modelo 4B durante a inferência.

Isto não é apenas uma curiosidade de referência – afeta diretamente os custos de serviço. Um modelo que oferece raciocínio de classe 27B com taxa de transferência de classe 4B significa menos GPUs, menor latência e inferência mais barata por token na produção. Para organizações que executam assistentes de codificação, pipelines de processamento de documentos ou fluxos de trabalho de agentes multivoltas, a variante MoE pode ser a escolha mais prática da família.

Ambos os modelos de estação de trabalho usam um mecanismo de atenção híbrido que intercala a atenção da janela deslizante native com a atenção international completa, com a camada closing sempre international. Esse design permite a janela de contexto de 256K enquanto mantém o consumo de memória gerenciável – uma consideração importante para equipes que processam documentos longos, bases de código ou conversas de agentes multivoltas.

Multimodalidade nativa: visão, áudio e chamadas de funções integradas do zero

As gerações anteriores de modelos abertos normalmente tratavam a multimodalidade como um complemento. Codificadores de visão foram aparafusados ​​em backbones de texto. O áudio exigia um pipeline ASR externo como o Whisper. A chamada de função dependia de engenharia imediata e da esperança de que o modelo cooperasse. Gemma 4 integra todos esses recursos no nível da arquitetura.

Todos os quatro modelos lidam entrada de imagem com proporção variável com orçamentos de tokens visuais configuráveis ​​— uma melhoria significativa em relação ao antigo codificador de visão Gemma 3n, que tinha dificuldades com OCR e compreensão de documentos. O novo codificador suporta orçamentos de 70 a 1.120 tokens por imagem, permitindo que os desenvolvedores negociem detalhes com computação, dependendo da tarefa.

Orçamentos mais baixos funcionam para classificação e legendagem; orçamentos mais altos lidam com OCR, análise de documentos e análise visible refinada. A entrada de múltiplas imagens e vídeo (processada como sequências de quadros) é suportada nativamente, permitindo o raciocínio visible em vários documentos ou capturas de tela.

Os dois modelos de arestas adicionam processamento de áudio nativo — reconhecimento automático de fala e conversão de fala em texto traduzido, tudo no dispositivo. O codificador de áudio foi compactado para 305 milhões de parâmetros, abaixo dos 681 milhões no Gemma 3n, enquanto a duração do quadro caiu de 160ms para 40ms para uma transcrição mais responsiva. Para equipes que criam aplicativos de voz que precisam manter os dados locais – pense em saúde, serviço de campo ou interação multilíngue com o cliente – executar ASR, tradução, raciocínio e chamada de função em um único modelo em um telefone ou dispositivo de borda é uma simplificação arquitetônica genuína.

Chamada de função também é nativo em todos os quatro modelos, com base em pesquisas do Google FunçãoGemma lançamento no closing do ano passado. Ao contrário das abordagens anteriores que dependiam do seguimento de instruções para persuadir os modelos a usarem ferramentas estruturadas, a chamada de função do Gemma 4 foi treinada no modelo desde o início – otimizada para fluxos de agente multiturno com múltiplas ferramentas. Isso aparece em benchmarks de agentes, mas, mais importante, reduz a sobrecarga imediata de engenharia que as equipes empresariais normalmente investem ao criar agentes que usam ferramentas.

Benchmarks no contexto: onde Gemma 4 pousa em um campo lotado

Os números de referência contam uma história clara de melhoria geracional. As pontuações do modelo denso 31B 89,2% no AIME 2026 (um teste rigoroso de raciocínio matemático), 80,0% no LiveCodeBench v6e atinge um Codeforce ELO de 2.150 – números que teriam sido de classe de fronteira a partir de modelos proprietários não muito tempo atrás. Na visão, o MMMU Professional atinge 76,9% e o MATH-Imaginative and prescient atinge 85,6%.

Gráfico de benchmark de pontuação ELO do Google Gemma 4. Crédito: Google

Para efeito de comparação, Gemma 3 27B obteve pontuação de 20,8% no AIME e 29,1% no LiveCodeBench sem modo de pensamento.

O modelo MoE acompanha de perto: 88,3% no AIME 2026, 77,1% no LiveCodeBench e 82,3% no GPQA Diamond – uma referência de raciocínio científico de nível de pós-graduação. A diferença de desempenho entre o MoE e as variantes densas é modesta, dada a significativa vantagem de custo de inferência da arquitetura MoE.

Os modelos de ponta superam sua classe de peso. O E4B atinge 42,5% no AIME 2026 e 52,0% no LiveCodeBench – forte para um modelo que roda em uma GPU T4. O E2B, ainda menor, administra 37,5% e 44,0% respectivamente. Ambos superam significativamente o Gemma 3 27B (sem pensar) na maioria dos benchmarks, apesar de serem uma fração do tamanho, graças à capacidade de raciocínio integrada.

Esses números precisam ser lidos em relação a um cenário de peso aberto cada vez mais competitivo. Qwen 3.5, GLM-5 e Kimi K2.5 competem agressivamente nesta faixa de parâmetros e o campo se transfer rapidamente. O que distingue o Gemma 4 é menos um benchmark único e mais a combinação: raciocínio forte, multimodalidade nativa em texto, visão e áudio, chamada de função, contexto de 256K e uma licença genuinamente permissiva — tudo em uma única família de modelos com opções de implantação de dispositivos de borda até nuvem sem servidor.

O que as equipes empresariais devem observar a seguir

O Google está lançando modelos básicos pré-treinados e variantes ajustadas por instrução, o que é importante para organizações que planejam fazer ajustes para domínios específicos. Os modelos básicos do Gemma têm sido historicamente bases sólidas para o treinamento personalizado, e a licença Apache 2.0 agora elimina qualquer ambigüidade sobre se os derivados ajustados podem ser implantados comercialmente.

Vale a pena observar a opção de implantação sem servidor por meio do Cloud Run com suporte a GPU para equipes que precisam de capacidade de inferência que pode ser escalada até zero. Pagar apenas pela computação actual durante a inferência — em vez de manter instâncias de GPU sempre ativas — poderia mudar significativamente a economia da implantação de modelos abertos na produção, especialmente para ferramentas internas e aplicativos de menor tráfego.

O Google deu a entender que esta pode não ser a família Gemma 4 completa, com tamanhos de modelo adicionais provavelmente a seguir. Mas a combinação disponível hoje – modelos de raciocínio de classe de estação de trabalho e modelos multimodais de classe de ponta, todos no Apache 2.0, todos baseados na pesquisa do Gemini 3 – representa o lançamento de modelo aberto mais completo que o Google já lançou. Para as equipes empresariais que esperavam pelos modelos abertos do Google para competir em termos de licenciamento e também em desempenho, a avaliação pode finalmente começar sem uma chamada para o departamento jurídico.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui