Confira o repositório do Gemma Cookbook para ver exemplos de geração e ajuste. Saiba mais

Esta página foi traduzida pela API Cloud Translation.

Ajuste fino do modelo Gemma

O ajuste fino de um modelo de inteligência artificial (IA) generativa, como o Gemma, modifica o comportamento do modelo. Normalmente, você ajusta o Gemma com a intenção de melhorar o desempenho em uma tarefa ou domínio específico ou para melhor cumprir uma função, como atendimento ao cliente. Os modelos do Gemma são lançados com pesos abertos, o que significa que você pode modificar esses pesos, o que muda o comportamento do modelo. As etapas gerais para ajustar um modelo do Gemma são as seguintes:

Escolher uma estrutura
Coletar dados
Ajustar e testar o modelo
Implantar o modelo

Escolher um framework

Os modelos do Gemma são compatíveis com vários frameworks de ajuste de IA. Cada framework oferece várias vantagens e geralmente é restrito a um formato de modelo específico. Confira os guias para ajustar modelos do Gemma com vários frameworks:

Keras que usam a LoRA
Biblioteca Gemma para JAX
Hugging Face
- Transformadores e PEFT
- LLamMA Factory (link em inglês)
- XTuner
Google Cloud GKE (várias GPUs com transformadores HF)
Unsloth (link em inglês)
Axolotl (link em inglês)
Keras usando o ajuste distribuído

Confira se o formato do modelo de implantação pretendido, como o formato Keras, Safetensors ou GGUF, tem suporte como saída pelo framework escolhido.

Coletar dados

O ajuste do modelo requer dados. Os dados de ajuste geralmente consistem em pares de dados de entrada com a resposta esperada. Há muitos conjuntos de dados públicos disponíveis on-line para treinamento em várias tarefas ou saídas. Por exemplo, se você quiser treinar um modelo do Gemma para traduzir descrições de peças de carro para números de peças, seu conjunto de dados poderá incluir o seguinte:

training_data = [
  {"input_text": "Part number for A4 brake caliper", "output_text": "4M0615107BS"},
  {"input_text": "Part number for Beetle fuel pump", "output_text": "6A127026H"},
  {"input_text": "Part number for Camaro cylinder head", "output_text": "12711770"},
]

Se você quiser que um modelo Gemma execute um conjunto específico de tarefas ou funções, normalmente precisará compilar um conjunto de dados que demonstre várias variações dessa tarefa. A quantidade de dados necessária para ajustar um modelo depende das suas metas, principalmente da mudança comportamental que você quer que o modelo faça e de quão bem você quer que ele funcione com base na tarefa a ser realizada e no nível de variação nos dados de entrada.

Em geral, comece com um pequeno conjunto de dados para ajustar a tarefa, ajuste os parâmetros de treinamento e adicione dados até atingir a performance da tarefa que atenda às suas necessidades. Alguns dos nossos exemplos de aplicativos mostram que é possível influenciar o comportamento de um modelo Gemma com apenas 20 pares de comando e resposta. Para mais detalhes, consulte Criar um assistente de IA para e-mails comerciais com o Gemma e Tarefas em idiomas falados com o Gemma.

Ajustar e testar o modelo

Depois de ter um framework e dados de ajuste, você pode iniciar o processo de ajuste do modelo Gemma. Ao fazer o ajuste, você tem algumas opções de como ajustar, o que afeta os recursos necessários para concluir. Você também precisa ter um plano de teste para o modelo ajustado para avaliar se ele está funcionando da maneira que você quer após o ajuste.

Ajuste da eficiência dos parâmetros

Ao ajustar um modelo de pesos abertos, como o Gemma, você tem a opção de ajustar todos os parâmetros do modelo ou usar uma técnica de ajuste eficiente de parâmetros que consome menos recursos e atualiza um subconjunto deles. Uma abordagem de ajuste completa significa que, ao aplicar os dados de ajuste, você calcula novos pesos para todos os parâmetros do modelo. Essa abordagem exige muita computação e memória, já que você está realizando esses cálculos para bilhões de parâmetros. Usar abordagens de ajuste menos intensivas em recursos, chamadas de ajuste eficiente de parâmetros (PEFT, na sigla em inglês), incluindo técnicas como o ajuste de adaptador de baixa classificação (LoRA, na sigla em inglês), pode produzir resultados semelhantes com menos recursos de computação. Para saber como fazer o ajuste com menos recursos usando a LoRA, consulte Ajustar modelos do Gemma no Keras usando a LoRA e Ajustar modelos do Gemma no Hugging Face.

Como testar modelos ajustados

Depois de ajustar um modelo para uma tarefa específica, teste o desempenho dele com relação ao conjunto de tarefas que você quer que ele execute. Teste o modelo com tarefas ou solicitações em que ele não foi treinado especificamente. A forma de testar o modelo ajustado depende da tarefa que você quer que ele execute e de como você gerencia as entradas e saídas do modelo. Uma maneira comum de gerenciar testes de modelos gerativos é usar casos de sucesso, falha e limite:

Testes de sucesso: solicitações que o modelo ajustado sempre precisa executar com sucesso.
Testes de falha: solicitações que o modelo ajustado não pode executar ou se recusa explicitamente a realizar, se solicitado.
Testes de limite: solicitações que o modelo ajustado precisa ser capaz de executar, se elas estiverem dentro de um limite definido ou de um conjunto de limites de comportamento de saída aceitável.

Ao testar condições de falha ou de limite para seu aplicativo de IA generativa, também é necessário aplicar abordagens, técnicas e ferramentas de segurança de IA generativa, conforme descrito no Kit de ferramentas de IA generativa responsável.

Implantar o modelo

Depois de concluir o ajuste e os testes, é hora de implantar o modelo. Normalmente, você pode consultar a documentação do framework escolhido para saber como implantar um modelo otimizado.

Se você estiver implantando um modelo com pesos ajustados da LoRA, saiba que, com essa técnica, normalmente você implanta ambos, o modelo original e os pesos dele, com os pesos da LoRA como uma camada de cálculo adicional para o modelo.