Início Tecnologia Explicação do dimensionamento do treinamento para teste: como otimizar seu orçamento de...

Explicação do dimensionamento do treinamento para teste: como otimizar seu orçamento de computação de IA de ponta a ponta para inferência

14
0

As diretrizes padrão para a construção de grandes modelos de linguagem (LLMs) otimizam apenas os custos de treinamento e ignoram os custos de inferência. Isto representa um desafio para aplicações do mundo actual que utilizam técnicas de escala de tempo de inferência para aumentar a precisão das respostas do modelo, como extrair múltiplas amostras de raciocínio de um modelo na implantação.

Para preencher esta lacuna, pesquisadores da Universidade de Wisconsin-Madison e da Universidade de Stanford introduziram Treine para testar (T2) leis de escalabilidade, uma estrutura que otimiza conjuntamente o tamanho dos parâmetros de um modelo, seu quantity de dados de treinamento e o número de amostras de inferência em tempo de teste.

Na prática, sua abordagem prova que é excellent para a computação treinar modelos substancialmente menores com muito mais dados do que as regras tradicionais prescrevem e, em seguida, usar a sobrecarga computacional salva para gerar múltiplas amostras repetidas na inferência.

Para desenvolvedores de aplicativos empresariais de IA que estão treinando seus próprios modelos, esta pesquisa fornece um modelo comprovado para maximizar o retorno do investimento. Mostra que o raciocínio da IA ​​não exige necessariamente gastos enormes em modelos de fronteira. Em vez disso, modelos menores podem produzir um desempenho mais forte em tarefas complexas, ao mesmo tempo que mantêm os custos de inferência por consulta gerenciáveis ​​dentro dos orçamentos de implantação do mundo actual.

Leis de escala conflitantes

As leis de escala são uma parte importante do desenvolvimento de grandes modelos de linguagem. As leis de escalabilidade pré-treinamento determinam a melhor maneira de alocar computação durante a criação do modelo, enquanto leis de escala de tempo de teste orientar como alocar computação durante a implantação, como deixar o modelo “pensar mais” ou gerar vários exemplos de raciocínio para resolver problemas complexos.

O problema é que estas leis de escala foram desenvolvidas de forma completamente independente umas das outras, apesar de estarem fundamentalmente interligadas.

O tamanho dos parâmetros de um modelo e a duração do treinamento determinam diretamente a qualidade e o custo por consulta de suas amostras de inferência. Atualmente, o padrão ouro da indústria para pré-treinamento é o Regra da chinchilaque sugere uma proporção excellent de computação de aproximadamente 20 tokens de treinamento para cada parâmetro do modelo.

No entanto, os criadores de famílias modernas de modelos de IA, como Llama, Gemma e Qwen, quebram regularmente esta regra ao treinarem intencionalmente os seus modelos mais pequenos em grandes quantidades de dados.

Como Nicholas Roberts, co-autor do artigo, disse ao VentureBeat, a abordagem tradicional falha ao construir fluxos de trabalho de agentes complexos: “Na minha opinião, a pilha de inferência quebra quando cada chamada de inferência particular person é cara. Este é o caso quando os modelos são grandes e você precisa fazer muitas amostragens repetidas.” Em vez de depender de modelos massivos, os desenvolvedores podem usar modelos compactos sobretreinados para executar essa amostragem repetida por uma fração do custo.

Mas como as leis de escalonamento de treinamento e tempo de teste são examinadas isoladamente, não existe uma estrutura rigorosa para calcular o quanto um modelo deve ser treinado em excesso com base em quantas amostras de raciocínio ele precisará gerar durante a implantação.

Conseqüentemente, não existia anteriormente nenhuma fórmula que otimizasse conjuntamente o tamanho do modelo, o quantity de dados de treinamento e os orçamentos de inferência em tempo de teste.

A razão pela qual esta estrutura é difícil de formular é que o pré-treinamento e o escalonamento do tempo de teste falam duas linguagens matemáticas diferentes. Durante o pré-treinamento, o desempenho de um modelo é medido usando “perda”, uma métrica suave e contínua que rastreia erros de previsão à medida que o modelo aprende.

No momento do teste, os desenvolvedores usam métricas downstream do mundo actual para avaliar as capacidades de raciocínio de um modelo, como move@okay, que mede a probabilidade de um modelo produzir pelo menos uma resposta correta em okay tentativas repetidas e independentes.

Leis de escalonamento de treinamento para teste

Para resolver a desconexão entre treinamento e implantação, os pesquisadores introduzem Prepare-to-Check (T2) leis de escala. Em alto nível, esta estrutura prevê o desempenho de raciocínio de um modelo tratando três variáveis ​​como uma única equação: o tamanho do modelo (N), o quantity de tokens de treinamento com os quais ele aprende (D) e o número de amostras de raciocínio que ele gera durante a inferência (okay).

“Prepare-to-test” combina as leis de escalonamento de pré-treinamento e tempo de teste em uma estrutura unificada (fonte: arXiv)

T2 combina orçamentos de pré-treinamento e inferência em uma fórmula de otimização que leva em conta tanto o custo da linha de base para treinar o modelo (6ND) quanto o custo composto para consultá-lo repetidamente na inferência (2Nk). Os pesquisadores tentaram diferentes abordagens de modelagem: modelar a perda pré-treinamento ou o desempenho no tempo de teste (move@okay) como funções de N, D e okay.

A primeira abordagem pega a equação matemática acquainted usada para o escalonamento da Chinchilla (que calcula o erro ou perda de previsão de um modelo) e a modifica diretamente adicionando uma nova variável que leva em conta o número de amostras repetidas no tempo de teste (okay). Isso permite que os desenvolvedores vejam como o aumento da computação de inferência reduz a taxa de erro geral do modelo.

A segunda abordagem modela diretamente a precisão move@okay downstream. Ele informa aos desenvolvedores a probabilidade de seu aplicativo resolver um problema, dado um orçamento de computação específico.

Mas as empresas deveriam usar esta estrutura para todas as aplicações? Roberts esclarece que esta abordagem é altamente especializada. “Imagino que não veríamos tantos benefícios em aplicações com muito conhecimento, como modelos de chat”, disse ele. Em vez disso, “T2 é adaptado para aplicações de raciocínio pesado, como codificação, onde normalmente você usaria amostragem repetida como método de escalonamento de tempo de teste.”

O que isso significa para os desenvolvedores

Para validar o T2 leis de escala, os pesquisadores construíram um extenso banco de testes com mais de 100 modelos de linguagem, variando de 5 milhões a 901 milhões de parâmetros. Eles treinaram do zero 21 novos postos de controle com excesso de treinamento para testar se suas previsões matemáticas se sustentavam na realidade. Eles então compararam os modelos em oito tarefas diversas, que incluíam conjuntos de dados do mundo actual como SciQ e OpenBookQA, juntamente com tarefas sintéticas projetadas para testar aritmética, raciocínio espacial e recuperação de conhecimento.

Ambos os modelos matemáticos provaram que a fronteira de computação excellent se afasta drasticamente da escala padrão da Chinchilla. Para maximizar o desempenho sob um orçamento fixo, a escolha excellent é um modelo significativamente menor e treinado com muito mais dados do que determina a regra tradicional de 20 tokens por parâmetro.

desempenho do treinamento ao teste

As leis de escalonamento do treinamento para teste mostram que pequenos modelos com overtraining superam os modelos otimizados para Chinchilla em tarefas de raciocínio (fonte: arXiv)

Em seus experimentos, os modelos pequenos altamente treinados superaram consistentemente os modelos maiores, ótimos para Chinchilla, em todas as oito tarefas de avaliação, quando os custos de amostragem no tempo de teste foram contabilizados.

Para os desenvolvedores que desejam implementar essas descobertas, a barreira técnica é surpreendentemente baixa.

“Nada sofisticado é necessário para realizar o dimensionamento em tempo de teste com nossos modelos atuais”, disse Roberts. “Na implantação, os desenvolvedores podem integrar absolutamente a infraestrutura que torna o processo de amostragem mais eficiente (por exemplo, cache KV se você estiver usando um transformador).”

O cache KV ajuda a armazenar o contexto processado anteriormente para que o modelo não exact reler o immediate inicial do zero para cada nova amostra de raciocínio.

No entanto, o overtraining extremo traz compensações práticas. Embora os modelos sobretreinados possam ser notoriamente teimosos e mais difíceis de ajustar, Roberts observa que quando aplicaram o ajuste fino supervisionado, “embora este efeito estivesse presente, não foi um efeito suficientemente forte para puxar o modelo excellent de volta para Chinchilla”. A estratégia de computação excellent permanece definitivamente voltada para modelos compactos.

No entanto, as equipes que levam isso ao limite absoluto devem ter cuidado ao atingir os limites físicos de dados. “Outro ângulo é que se você levar nossas recomendações de overtraining ao extremo, você pode realmente ficar sem dados de treinamento”, disse Roberts, referindo-se ao iminente “muro de dados” onde os dados de alta qualidade da Web estão esgotados.

Esses experimentos confirmam que, se um aplicativo depende da geração de múltiplas amostras de raciocínio em tempo de teste, o overtraining agressivo de um modelo compacto é prática e matematicamente a maneira mais eficaz de gastar um orçamento de computação de ponta a ponta.

Para ajudar os desenvolvedores a começar, a equipe de pesquisa planeja abrir o código-fonte de seus pontos de verificação e código em breve, permitindo que as empresas conectem seus próprios dados e testem o comportamento de escalonamento imediatamente. Em última análise, este quadro serve como uma força equalizadora na indústria da IA.

Isto é especialmente essential porque o alto preço dos modelos de fronteira pode se tornar uma barreira à medida que você dimensiona aplicações de agente que dependem de modelos de raciocínio.

“T2 muda fundamentalmente quem constrói modelos de raciocínio sólidos”, conclui Roberts. “Talvez você não exact de enormes orçamentos de computação para obter raciocínio de última geração. Em vez disso, você precisa de bons dados e de uma alocação inteligente do seu orçamento para treinamento e inferência.”

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui