Início Tecnologia O Amazon S3 Recordsdata oferece aos agentes de IA um espaço de...

O Amazon S3 Recordsdata oferece aos agentes de IA um espaço de trabalho de sistema de arquivos nativo, encerrando a divisão objeto-arquivo que interrompe pipelines multiagentes

27
0

Os agentes de IA são executados em sistemas de arquivos usando ferramentas padrão para navegar em diretórios e ler caminhos de arquivos.

O desafio, porém, é que há muitos dados empresariais em sistemas de armazenamento de objetos, principalmente no Amazon S3. Os armazenamentos de objetos fornecem dados por meio de chamadas de API, não de caminhos de arquivo. Preencher essa lacuna exigiu uma camada de sistema de arquivos separada junto com o S3, dados duplicados e pipelines de sincronização para manter ambos alinhados.

TA ascensão da IA ​​agente tornou esse desafio ainda mais difícil e estava afetando a capacidade da própria Amazon de fazer as coisas. As equipes de engenharia da AWS que usavam ferramentas como Kiro e Claude Code continuavam enfrentando o mesmo problema: os agentes padronizavam as ferramentas de arquivo native, mas os dados estavam no S3. O obtain native funcionou até que a janela de contexto do agente fosse compactada e o estado da sessão fosse perdido.

A resposta da Amazon é S3 Recordsdata, que monta qualquer bucket S3 diretamente no ambiente native de um agente com um único comando. Os dados permanecem no S3, sem necessidade de migração. Nos bastidores, a AWS conecta sua tecnologia Elastic File System (EFS) ao S3 para fornecer semântica completa do sistema de arquivos, e não uma solução alternativa. Os arquivos S3 já estão disponíveis na maioria das regiões da AWS.

“Ao disponibilizar imediatamente os dados no S3, como se fizessem parte do sistema de arquivos native, descobrimos que tivemos uma aceleração muito grande com a capacidade de coisas como Kiro e Claude Code serem capazes de trabalhar com esses dados”, disse Andy Warfield, vice-presidente e engenheiro distinto da AWS, ao VentureBeat.

A diferença entre armazenamento de arquivos e objetos e por que isso é importante

O S3 foi desenvolvido para oferecer durabilidade, escalabilidade e acesso baseado em API no nível do objeto. Essas propriedades tornaram-na a camada de armazenamento padrão para dados corporativos. Mas eles também criaram uma incompatibilidade elementary com as ferramentas baseadas em arquivos das quais os desenvolvedores e agentes dependem. “O S3 não é um sistema de arquivos e não possui semântica de arquivos em várias frentes”, disse Warfield. “Você não pode fazer uma movimentação, uma movimentação atômica de um objeto, e na verdade não existem diretórios no S3.”

Tentativas anteriores de preencher essa lacuna dependiam do FUSE (Filesystems in USErspace), uma camada de software program que permite aos desenvolvedores montar um sistema de arquivos personalizado no espaço do usuário sem alterar o armazenamento subjacente. Ferramentas como o próprio Mount Level da AWS, o gcsfuse do Google e o blobfuse2 da Microsoft usaram drivers baseados em FUSE para fazer com que seus respectivos armazenamentos de objetos parecessem um sistema de arquivos.

Warfield observou que o problema é que esses armazenamentos de objetos ainda não eram sistemas de arquivos. Esses drivers falsificaram o comportamento do arquivo colocando metadados extras em buckets, o que quebrou a visualização da API do objeto, ou recusaram operações de arquivo que o armazenamento de objetos não podia suportar.

O S3 Recordsdata adota uma arquitetura totalmente diferente. A AWS está conectando sua tecnologia EFS (Elastic File System) diretamente ao S3, apresentando uma camada de sistema de arquivos nativa completa enquanto mantém o S3 como sistema de registro. Tanto a API do sistema de arquivos quanto a API do objeto S3 permanecem acessíveis simultaneamente nos mesmos dados.

Como o S3 Recordsdata acelera a IA agente

Antes do S3 Recordsdata, um agente que trabalhava com dados de objetos precisava ser explicitamente instruído a fazer obtain de arquivos antes de usar as ferramentas. Isso criou um problema de estado de sessão. À medida que os agentes compactavam suas janelas de contexto, o registro do que havia sido baixado localmente period frequentemente perdido.

“Eu teria que lembrar ao agente que os dados estavam disponíveis localmente”, disse Warfield.

Warfield analisou o antes e o depois de uma tarefa comum de agente envolvendo análise de log. Ele explicou que um desenvolvedor estava usando Kiro ou Claude Code para trabalhar com dados de log; no caso do objeto, eles precisariam informar ao agente onde os arquivos de log estão localizados e baixá-los. Considerando que, se os logs puderem ser montados imediatamente no sistema de arquivos native, o desenvolvedor poderá simplesmente identificar que os logs estão em um caminho específico e o agente terá acesso imediato para examiná-los.

Para pipelines multiagentes, vários agentes podem acessar o mesmo bucket montado simultaneamente. A AWS afirma que milhares de recursos de computação podem se conectar a um único sistema de arquivos S3 ao mesmo tempo, com a taxa de transferência de leitura agregada atingindo vários terabytes por segundo – números que a VentureBeat não foi capaz de verificar de forma independente.

O estado compartilhado entre agentes funciona por meio de convenções padrão do sistema de arquivos: subdiretórios, arquivos de notas e diretórios de projetos compartilhados que qualquer agente no pipeline pode ler e gravar. Warfield descreveu as equipes de engenharia da AWS usando esse padrão internamente, com agentes registrando notas de investigação e resumos de tarefas em diretórios de projetos compartilhados.

Para equipes que constroem pipelines RAG sobre conteúdo de agente compartilhado, o S3 Vectors — lançado no AWS re:Invent em dezembro de 2024 — coloca camadas no topo para pesquisa de similaridade e geração de recuperação aumentada com relação aos mesmos dados.

O que dizem os analistas: este não é apenas um FUSE melhor

A AWS está posicionando os arquivos S3 contra o acesso a arquivos baseado em FUSE do Azure Blob NFS e do Google Cloud Storage FUSE. Para cargas de trabalho de IA, a distinção significativa não é principalmente o desempenho.

“O S3 Recordsdata elimina a confusão de dados entre o armazenamento de objetos e arquivos, transformando o S3 em um espaço de trabalho compartilhado e de baixa latência sem copiar dados”, disse Jeff Vogel, analista do Gartner, ao VentureBeat. “O sistema de arquivos se torna uma visualização, não outro conjunto de dados.”

Com abordagens baseadas no FUSE, cada agente mantém sua própria visão native dos dados. Quando vários agentes trabalham simultaneamente, essas visualizações podem ficar fora de sincronia.

“Ele elimina uma classe inteira de modos de falha, incluindo falhas inexplicáveis ​​de treinamento/inferência causadas por metadados obsoletos, que são notoriamente difíceis de depurar”, disse Vogel. “As soluções baseadas em FUSE externalizam a complexidade e os problemas para o usuário.”

As implicações no nível do agente vão ainda mais longe. O argumento arquitetônico importa menos do que aquilo que ele revela na prática.

“Para a IA agente, que pensa em termos de arquivos, caminhos e scripts locais, este é o elo que faltava”, disse Dave McCarthy, analista da IDC, ao VentureBeat. “Ele permite que um agente de IA trate um bucket em escala de exabytes como seu próprio disco rígido native, permitindo um nível de velocidade operacional autônoma que anteriormente period restringido pela sobrecarga de API associada a abordagens como FUSE.”

Além do fluxo de trabalho do agente, McCarthy vê o S3 Recordsdata como um ponto de inflexão mais amplo sobre como as empresas usam seus dados.

“O lançamento do S3 Recordsdata não é apenas o S3 com uma nova interface; é a remoção do ponto last de atrito entre enormes lagos de dados e IA autônoma”, disse ele. “Ao convergir o acesso a arquivos e objetos com o S3, eles estão abrindo a porta para mais casos de uso com menos retrabalho.”

O que isso significa para as empresas

Para equipes corporativas que mantêm um sistema de arquivos separado junto com o S3 para oferecer suporte a aplicativos baseados em arquivos ou cargas de trabalho de agente, essa arquitetura agora é desnecessária.

Para as equipes empresariais que estão consolidando a infraestrutura de IA no S3, a mudança prática é concreta: o S3 deixa de ser o destino da produção do agente e se torna o ambiente onde o trabalho do agente acontece.

“Todas essas mudanças de API que você está vendo nas equipes de armazenamento vêm do trabalho em primeira mão e da experiência do cliente usando agentes para trabalhar com dados”, disse Warfield. “Estamos realmente focados em remover qualquer atrito e fazer com que essas interações ocorram da melhor maneira possível.”

fonte