Meta é pego para jogos de referência de IA com llama 4

No fim de semana, a Meta lançou dois novos modelos Llama 4: um modelo menor chamado Scout e Maverick, um modelo de tamanho médio que a empresa afirma que pode vencer o GPT-4O e o Gemini 2.0 Flash “em uma ampla gama de benchmarks amplamente relatados”.

O Maverick rapidamente garantiu o número número dois em Lmarena, o site de referência da AI, onde os humanos comparam os resultados de diferentes sistemas e votam no melhor. No comunicado de imprensa da Meta, a empresa destacou a pontuação ELO de Maverick de 1417, que o colocou acima do 4o do Openai e apenas sob Gemini 2.5 Pro. (Uma pontuação ELO mais alta significa que o modelo ganha com mais frequência na arena ao enfrentar os concorrentes.)

A conquista parecia posicionar a llama 4 de peso aberto da Meta como um grave desafiante dos modelos fechados de ponta do Openai, Anthropic e Google. Então, os pesquisadores da IA ??cavando a documentação da Meta descobriram algo incomum.

Em letras pequenas, a Meta reconhece que a versão do Maverick testada em Lmarena não é a mesma que está disponível ao público. De acordo com os próprios materiais da Meta, ele implantou uma “versão experimental de bate -papo” de Maverick para Lmarena, que foi especificamente “otimizada para a conversacionalidade”. TechCrunch primeiro relatado.

“A interpretação da Meta de nossa política não correspondeu ao que esperamos dos provedores de modelos”, postou Lmarena em X dois dias após o lançamento do modelo. “A Meta deveria ter deixado mais claro que o ‘LLAMA-4-MAVERICK-03-26-SPIGERAL’ era um modelo personalizado para otimizar a preferência humana. Como resultado disso, estamos atualizando nossas políticas de tabela de classificação para reforçar nosso compromisso com avaliações justas e reprodutíveis, para que essa confusão não ocorra no futuro.“

Um porta -voz da Meta, Ashley Gabriel, disse em comunicado por e -mail que “experimentamos todos os tipos de variantes personalizadas”.

“‘Llama-4-Maverick-03-26-experimental’ é uma versão otimizada do bate-papo que experimentamos que também tem um bom desempenho na Lmarena”, disse Gabriel. “Agora lançamos nossa versão de código aberto e veremos como os desenvolvedores personalizam o LLAMA 4 para seus próprios casos de uso. Estamos empolgados em ver o que eles construirão e aguardarão seus comentários contínuos”.

Embora o que a Meta tenha feito com o Maverick não esteja explicitamente contra as regras de Lmarena, o site compartilhou preocupações com o jogo do sistema e tomou medidas para “evitar o excesso de ajuste e o vazamento de referência”. Quando as empresas podem enviar versões especialmente ajustadas de seus modelos para testar, ao mesmo tempo em que liberam versões diferentes para o público, rankings de referência como Lmarena se tornam menos significativas como indicadores de desempenho do mundo real.

“É o benchmark geral mais respeitado porque todos os outros são péssimos”, disse o pesquisador independente da IA ??Simon Willison A beira. “Quando o Llama 4 saiu, o fato de ter ficado em segundo lugar na arena, logo após a Gemini 2.5 Pro – que realmente me impressionou, e estou me chutando por não ler as letras pequenas.”

Logo após a META lançar o Maverick and Scout, a comunidade de IA começou a falar sobre um boato de que a Meta também havia treinado seus modelos LLAMA 4 para ter um desempenho melhor em benchmarks enquanto escondia suas limitações reais. O vice-presidente de IA generativa na Meta, Ahmad al-Dahle, abordou as acusações em um post em X: “Também ouvimos alegações de que treinamos nos conjuntos de testes-isso simplesmente não é verdadeiro e nunca faríamos isso. Nosso melhor entendimento é que a pessoa variável que as pessoas se vêem devido à necessidade de estabilizar as implementações”.

“É uma versão muito confusa em geral.”

Alguns também notaram que o Llama 4 foi lançado em um momento estranho. O sábado não tende a ser quando as grandes notícias da IA ??caem. Depois que alguém no threads perguntou por que o LLAMA 4 foi lançado no fim de semana, o CEO da Meta, Mark Zuckerberg, respondeu: “Foi aí que estava pronto”.

“É uma versão muito confusa em geral”, diz Willison, que segue de perto e documenta os modelos de IA. “A pontuação do modelo que chegamos lá é completamente inútil para mim. Eu nem posso usar o modelo em que eles obtiveram uma pontuação alta”.

O caminho de Meta para liberar Llama 4 não foi exatamente suave. De acordo com um relatório recente de A informaçãoa empresa repetidamente adiantou o lançamento devido ao fato de o modelo não atender às expectativas internas. Essas expectativas são especialmente altas após o Deepseek, uma startup de IA de código aberto da China, lançou um modelo de peso aberto que gerou uma tonelada de zumbido.

Por fim, o uso de um modelo otimizado em Lmarena coloca os desenvolvedores em uma posição difícil. Ao selecionar modelos como o LLAMA 4 para suas aplicações, eles naturalmente procuram orientação para referências. Mas, como é o caso do Maverick, esses benchmarks podem refletir recursos que não estão realmente disponíveis nos modelos que o público pode acessar.

À medida que o desenvolvimento da IA ??acelera, este episódio mostra como os benchmarks estão se tornando campos de batalha. Também mostra como a Meta está ansiosa para ser vista como um líder de IA, mesmo que isso signifique jogar o sistema.

Atualização, 7 de abril: A história foi atualizada para adicionar a declaração de Meta.

As informações são do The Verge, site especializado em tecnologia

Publicação de: Blog do Esmael

Lunes Senes

Colaborador Convidado

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *