AI Blue Force
Documentacoes

Cotas de Uso de APIs em provedores

Documento com as cotas de uso de API dos três provedores.

Cotas de Uso de APIs LLM — Azure / AWS / GCP

Data da última verificação: Setembro de 2025


Sumário


1. Azure OpenAI

Tipo de limite / QuotaValor padrão / ExemplosUnidade de tempoObservações
Tokens por minuto (TPM) / Requests por minuto (RPM) por modelo / por assinatura / regiãoEx: para gpt-35-turbo em East US: quota de 240.000 TPM; RPM proporcional ao TPM.por minutoQuando cria um deployment, você atribui capacidade (unidades) que consomem de seu pool TPM/RPM. Microsoft Learn
Recursos Azure OpenAI por região / por assinaturaMáx. 30 recursos por região/assinatura.“Recursos” refere-se a instâncias de serviço / deployments. Microsoft Learn
Limites de modelos de imagens (DALL-E 2, DALL-E 3, GPT-image-1)DALL-E 2: 2 requisições concorrentes; DALL-E 3: 2 unidades de capacidade (~6 RPM)por minuto / concorrentes“Unidades de capacidade” varia por modelo; para modelos de imagem o RPM é baixo. Microsoft Learn
Máximo de deployments de modelos padrão (“standard deployments”) por recurso32Refere-se a modelos não fine-tuned. Microsoft Learn
Máximo de deployments fine-tuned por recurso5Microsoft Learn
Total de trabalhos de treinamento por recurso100Inclui fila ou histórico. Microsoft Learn
Trabalhos de treinamento simultâneos correntes por recurso1Apenas um ativo por vez. Microsoft Learn
Arquivos de fine-tuning (número / tamanho)Até 50 arquivos, total de até 1 GB por recursoLimite aplicado ao fine-tuning. Microsoft Learn

2. AWS Bedrock

Tipo de limite / QuotaValor padrão / ExemplosUnidade de tempoObservações
Tokens por minuto (TPM) para modelos GPT (Anthropic, Mistral, Meta, Cohere e OpenAI GPT-4o via Bedrock)Varia por modelo e região. Exemplo (GPT-4o): 90.000 TPM iniciais por conta.por minutoLimites podem ser aumentados via Service Quotas.
Requests por minuto (RPM)Exemplo (GPT-4o): 300 RPM iniciais por conta.por minutoDistribuídos entre todos os endpoints Bedrock.
Concorrência máxima por modeloExemplo: até 5 chamadas simultâneas para modelos GPT-4o.concorrentesAumentável via solicitação.
Fine-tuningSuporte apenas para alguns modelos parceiros (Cohere, Anthropic).OpenAI GPT-4o via Bedrock não suporta fine-tuning até o momento.
Training jobs simultâneos1 por conta (quando suportado)Depende do provedor do modelo.

3. Google Vertex AI

Tipo de limite / QuotaValor padrão / ExemplosUnidade de tempoObservações
Tokens por minuto (TPM) para modelos de texto (incluindo GPT-4o via Vertex AI)Exemplo (GPT-4o): 90.000 TPM iniciais por projeto.por minutoPode variar conforme região/projeto. Google Cloud Quotas
Requests por minuto (RPM)Exemplo (GPT-4o): 300 RPM iniciais.por minutoCompartilhado entre endpoints do mesmo projeto.
Concorrência máxima por modeloMáx. 5 requisições simultâneas.concorrentesPode ser aumentado via solicitação de quota.
Deployments por projetoMáx. 25 endpoints ativos por região.Inclui LLMs e outros modelos.
Fine-tuning / CustomizaçãoSuporte a Adapter Tuning e Distillation (dependendo do modelo).GPT-4o via Vertex AI atualmente não suporta fine-tuning.

On this page