Início Tecnologia Uma chamada de ferramenta para governar todos eles? Nova ferramenta Python de...

Uma chamada de ferramenta para governar todos eles? Nova ferramenta Python de código aberto RunPod Flash elimina contêineres para desenvolvimento de IA mais rápido

9
0

Runpoda plataforma de computação em nuvem e GPU de alto desempenho projetada especificamente para o desenvolvimento de IA, lançou hoje uma nova ferramenta de programação Python de código aberto, licenciada pelo MIT e amigável para empresas, chamada Runpod Flash – e está preparado para tornar a criação, iteração e implantação de sistemas de IA dentro e fora dos laboratórios de modelos básicos muito mais rápida.

A ferramenta visa eliminar algumas das maiores barreiras e obstáculos ao treinamento e uso de modelos de IA atualmente, ou seja, acabar com os pacotes Docker e a conteinerização no desenvolvimento para infraestrutura de GPU sem servidor, que a empresa acredita que irá acelerar o desenvolvimento e implantação de novos modelos de IA, aplicativos e fluxos de trabalho de agente.

Além disso, a plataforma foi construída para servir como um substrato crítico para agentes de IA e assistentes de codificação, como Claude Code, Cursor e Cline, permitindo-lhes orquestrar e implantar {hardware} remoto de forma autônoma e com atrito mínimo.

Os desenvolvedores podem utilizar o Flash para realizar um conjunto diversificado de tarefas de computação de alto desempenho, incluindo pesquisas de ponta em aprendizado profundo, treinamento de modelos e ajuste fino.

“Tornamos o mais fácil possível reunir o cosmos de diferentes ferramentas de IA disponíveis em uma chamada de função”, disse o diretor de tecnologia (CTO) da RunPod, Brennen Smith, em uma entrevista por videochamada com VentureBeat na semana passada.

A ferramenta permite a criação de pipelines “poliglotas” sofisticados, onde os usuários podem encaminhar o pré-processamento de dados para trabalhadores de CPU econômicos antes de transferir automaticamente a carga de trabalho para GPUs de última geração para inferência.

Além da pesquisa e do desenvolvimento, o Flash oferece suporte a requisitos de nível de produção por meio de recursos como APIs HTTP com balanceamento de carga de baixa latência, processamento em lote baseado em fila e armazenamento persistente em vários datacenters.

Eliminar o “imposto sobre embalagens” do desenvolvimento da IA

A principal proposta de valor do Flash GA é a remoção do Docker do ciclo de desenvolvimento sem servidor.

Em ambientes tradicionais de GPU sem servidor, um desenvolvedor deve contentorizar seu código, gerenciar um Dockerfile, construir a imagem e enviá-la para um registro antes que uma única linha de lógica possa ser executada em uma GPU remota. O Runpod Flash trata todo esse processo como um “imposto de embalagem” que retarda os ciclos de iteração.

Internamente, o Flash utiliza um mecanismo de construção multiplataforma que permite que um desenvolvedor que trabalha em um Mac da série M produza automaticamente um artefato Linux x86_64.

Este sistema identifica a versão native do Python, impõe rodas binárias e agrupa dependências em um artefato implantável que é montado em tempo de execução na frota sem servidor do Runpod.

Essa estratégia de montagem reduz significativamente as “inicializações a frio” — o atraso entre uma solicitação e a execução do código — evitando a sobrecarga de extrair e inicializar imagens de contêiner massivas para cada implantação.

Além disso, a infraestrutura tecnológica que suporta Flash é construída em uma pilha proprietária de Rede Definida por Software program (SDN) e Rede de Entrega de Conteúdo (CDN).

Smith disse ao VentureBeat que os problemas mais difíceis na infraestrutura de GPU muitas vezes não são as GPUs em si, mas os componentes de rede e armazenamento que as unem.

“Todo mundo está falando sobre IA de agente, mas a maneira como eu pessoalmente vejo isso – e a maneira como a equipe de liderança da RunPod vê isso – é que é necessário haver um substrato e uma cola realmente bons para que esses agentes, sejam eles quais forem, possam trabalhar”, disse Smith.

O Flash aproveita esse substrato de baixa latência para lidar com a descoberta e o roteamento de serviços, permitindo chamadas de função entre endpoints. Isso permite que os desenvolvedores criem pipelines “poliglotas” onde, por exemplo, um endpoint de CPU barato lida com o pré-processamento de dados antes de rotear os dados limpos para uma GPU NVIDIA H100 ou B200 de última geração para inferência.

Quatro arquiteturas de carga de trabalho distintas suportadas

Embora o Flash beta se concentre em endpoints de teste ao vivo, a versão GA apresenta um conjunto de recursos projetados para confiabilidade de nível de produção.

A interface principal é a nova @Endpoint decorador, que consolida a configuração – como tipo de GPU, escala de trabalho e dependências – diretamente no código. A versão GA outline quatro padrões arquitetônicos distintos para cargas de trabalho sem servidor:

  • Baseado em fila: Projetado para trabalhos em lote assíncronos onde as funções são decoradas e executadas.

  • Balanceamento de carga: adaptado para APIs HTTP de baixa latência, onde diversas rotas compartilham um pool de trabalhadores sem sobrecarga de fila.

  • Imagens Docker personalizadas: um substituto para ambientes complexos como vLLM ou ComfyUI, onde um trabalhador pré-construído já está disponível.

  • Terminais existentes: usando o Flash como um cliente Python para interagir com recursos Runpod implantados anteriormente por meio de seus IDs exclusivos.

Uma adição crítica para ambientes de produção é o NetworkVolume objeto, que fornece suporte de primeira classe para armazenamento persistente em vários datacenters.

Arquivos montados em /runpod-volume/ permite que pesos de modelos e grandes conjuntos de dados sejam armazenados em cache uma vez e reutilizados, mitigando ainda mais o impacto de inicializações a frio durante eventos de escalonamento.

Além disso, o Runpod introduziu o gerenciamento de variáveis ​​de ambiente que é excluído do hash de configuração, o que significa que os desenvolvedores podem girar chaves de API ou alternar sinalizadores de recursos sem acionar uma reconstrução completa do endpoint.

Para lidar com a ascensão do desenvolvimento assistido por IA, a Runpod lançou pacotes de habilidades específicas para agentes de codificação como Claude Code, Cursor e Cline.

Esses pacotes fornecem aos agentes um contexto profundo em relação ao Flash SDK, reduzindo efetivamente as alucinações de sintaxe e permitindo que os agentes escrevam códigos de implantação funcionais de forma autônoma.

Este movimento posiciona o Flash não apenas como uma ferramenta para humanos, mas como “substrato e cola” para a próxima geração de agentes de IA.

Por que RunPod Flash de código aberto?

Runpod lançou o Flash SDK sob o Licença MITuma das licenças de código aberto mais permissivas disponíveis.

Esta escolha é um movimento estratégico deliberado para maximizar a participação no mercado e a adoção pelos desenvolvedores. Em contraste com licenças mais restritivas como a GPL (Licença Pública Geral)que pode impor requisitos de “copyleft” – potencialmente forçando as empresas a abrir o código-fonte de seu próprio código proprietário se ele estiver vinculado à biblioteca – a licença do MIT permite uso comercial, modificação e distribuição irrestritos.

Smith explicou essa filosofia como uma “construção motivadora” para a empresa: “Prefiro vencer com base na qualidade e inovação do produto, em vez de facilidade jurídica e advogados”, disse ele ao VentureBeat.

Ao adotar uma licença permissiva, o Runpod reduz a barreira para a adoção empresarial, já que as equipes jurídicas não precisam navegar pelas complexidades da conformidade restritiva de código aberto.

Além disso, convida a comunidade a bifurcar e melhorar a ferramenta, que o Runpod pode então integrar novamente no lançamento oficial, promovendo um ecossistema colaborativo que acelera o desenvolvimento da plataforma.

O tempo é tudo: o crescimento e o posicionamento de mercado do RunPod

O lançamento do Flash GA chega em um momento de crescimento explosivo para Runpod, que ultrapassou US$ 120 milhões em receita anual recorrente (ARR) e atende uma base de desenvolvedores de mais de 750.000 desde que foi fundada em 2022.

O crescimento da empresa é impulsionado por dois segmentos distintos: as empresas “P90” – operações de grande escala como Anthropic, OpenAI e Perplexity – e os pesquisadores e estudantes independentes “sub-P90” que representam a grande maioria da base de usuários.

A agilidade da plataforma foi demonstrada recentemente durante o lançamento do DeepSeek V4 em prévia na semana passada. Poucos minutos após a estreia do modelo, os desenvolvedores estavam utilizando a infraestrutura Runpod para implantar e testar a nova arquitetura.

Essa capacidade de “tempo actual” é resultado direto do foco especializado da Runpod em desenvolvedores de IA, oferecendo mais de 30 SKUs de GPU e cobrança por milissegundo para garantir que cada dólar gasto resulte em rendimento máximo.

A posição do Runpod como a “nuvem de IA mais citada no GitHub” sugere que ele capturou com sucesso a mentalidade do desenvolvedor necessária para sustentar seu impulso.

Com o Flash GA, a empresa está tentando fazer a transição de fornecedora de computação bruta para se tornar a camada de orquestração essencial para a nuvem com IA.

À medida que o desenvolvimento muda para uma codificação “baseada na intenção” – onde o resultado é priorizado em detrimento dos detalhes de execução – as ferramentas que preenchem a lacuna entre as ideias locais e a escala international provavelmente definirão a próxima period da computação.

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui