Início Tecnologia O sistema de IA multiagente da Microsoft supera o Mythos da Anthropic...

O sistema de IA multiagente da Microsoft supera o Mythos da Anthropic em benchmark de segurança cibernética

12
0

Pontuações de benchmark da CyberGym ao longo do tempo, mostrando a rápida melhoria nas capacidades de descoberta de vulnerabilidades de IA. O sistema MDASH multimodelo da Microsoft (canto superior direito) lidera a tabela de classificação com 88,4%. (CyberGym / Universidade da Califórnia em Berkeley)

Mythos foi MDASH.

Um novo sistema alimentado por IA da Microsoft superou um rival da Anthropic que ganhou as manchetes em um benchmark líder de segurança cibernética, usando mais de 100 agentes especializados de IA trabalhando juntos em vários modelos de IA para encontrar vulnerabilidades de software program do mundo actual.

O sistema da Microsoft, codinome MDASH, foi apresentado esta semana juntamente com a divulgação de 16 novas vulnerabilidades encontradas em diferentes versões do Home windows, incluindo quatro falhas “críticas” de execução remota de código corrigidas no lançamento do Patch Tuesday deste mês.

A empresa, que tem enfrentado críticas persistentes sobre falhas de segurança, aposta que vários modelos podem descobrir vulnerabilidades a um ritmo que os modelos individuais não conseguem igualar.

MDASH, derivado do termo “arnês de varredura de agente multimodelo”, funciona executando agentes de IA especializados por meio de um pipeline em estágios. Diferentes agentes examinam o código em busca de vulnerabilidades potenciais, depois um conjunto separado de agentes debate se cada descoberta é actual e explorável, e um estágio last constrói ataques de prova de conceito para confirmar a existência dos bugs.

Em comparação, o Mythos da Anthropic, que levantou preocupações sobre sua capacidade de encontrar e explorar vulnerabilidades de software program quando foi apresentado no início deste ano, é um modelo único de IA executado dentro de uma estrutura de agente. A Anthropic restringiu seu lançamento a um punhado de empresas por meio de um consórcio chamado Venture Glasswing, que inclui a Microsoft.

O GPT-5.5 da OpenAI e outros na tabela de classificação também são sistemas de modelo único.

MDASH obteve 88,45% no Referência do CyberGymum teste desenvolvido por pesquisadores da UC Berkeley que mede quão bem os sistemas de IA podem reproduzir vulnerabilidades do mundo actual em 1.507 tarefas extraídas de 188 projetos de software program de código aberto.

Mythos Preview ficou em segundo lugar com 83,1%, seguido por GPT-5.5 com 81,8%.

O benchmark fornece a cada sistema uma descrição de uma vulnerabilidade conhecida e uma base de código não corrigida, e mede se ele pode produzir um ataque funcional que acione o bug.

As pontuações na tabela de classificação do CyberGym são relatadas pelas próprias empresas, incluindo o resultado Mythos da Anthropic. O código de referência é público, mas nenhuma parte independente verificou qualquer uma das pontuações. Além disso, os resultados do benchmark não refletem necessariamente o desempenho no mundo actual.

Os resultados também destacam preocupações crescentes sobre o uso da IA ​​como ferramenta ofensiva de hackers. Os mesmos recursos que permitem à IA encontrar vulnerabilidades em mãos amigas podem ser usados ​​para descobri-las para exploração por invasores. A Microsoft disse que o MDASH está sendo usado internamente por suas equipes de engenharia de segurança e entrará em uma visualização privada limitada com os clientes.

Microsoft é dizendo aos clientes esperar maiores Patch Tuesdays daqui para frente, à medida que a IA acelera a descoberta de vulnerabilidades.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui