Documentacoes

Cotas de Uso de APIs em provedores

Documento com as cotas de uso de API dos três provedores.

Cotas de Uso de APIs LLM — Azure / AWS / GCP

Data da última verificação: Setembro de 2025

Sumário

Azure OpenAI
AWS Bedrock
Google Vertex AI

1. Azure OpenAI

Tipo de limite / Quota	Valor padrão / Exemplos	Unidade de tempo	Observações
Tokens por minuto (TPM) / Requests por minuto (RPM) por modelo / por assinatura / região	Ex: para gpt-35-turbo em East US: quota de 240.000 TPM; RPM proporcional ao TPM.	por minuto	Quando cria um deployment, você atribui capacidade (unidades) que consomem de seu pool TPM/RPM. Microsoft Learn
Recursos Azure OpenAI por região / por assinatura	Máx. 30 recursos por região/assinatura.	—	“Recursos” refere-se a instâncias de serviço / deployments. Microsoft Learn
Limites de modelos de imagens (DALL-E 2, DALL-E 3, GPT-image-1)	DALL-E 2: 2 requisições concorrentes; DALL-E 3: 2 unidades de capacidade (~6 RPM)	por minuto / concorrentes	“Unidades de capacidade” varia por modelo; para modelos de imagem o RPM é baixo. Microsoft Learn
Máximo de deployments de modelos padrão (“standard deployments”) por recurso	32	—	Refere-se a modelos não fine-tuned. Microsoft Learn
Máximo de deployments fine-tuned por recurso	5	—	Microsoft Learn
Total de trabalhos de treinamento por recurso	100	—	Inclui fila ou histórico. Microsoft Learn
Trabalhos de treinamento simultâneos correntes por recurso	1	—	Apenas um ativo por vez. Microsoft Learn
Arquivos de fine-tuning (número / tamanho)	Até 50 arquivos, total de até 1 GB por recurso	—	Limite aplicado ao fine-tuning. Microsoft Learn

2. AWS Bedrock

Tipo de limite / Quota	Valor padrão / Exemplos	Unidade de tempo	Observações
Tokens por minuto (TPM) para modelos GPT (Anthropic, Mistral, Meta, Cohere e OpenAI GPT-4o via Bedrock)	Varia por modelo e região. Exemplo (GPT-4o): 90.000 TPM iniciais por conta.	por minuto	Limites podem ser aumentados via Service Quotas.
Requests por minuto (RPM)	Exemplo (GPT-4o): 300 RPM iniciais por conta.	por minuto	Distribuídos entre todos os endpoints Bedrock.
Concorrência máxima por modelo	Exemplo: até 5 chamadas simultâneas para modelos GPT-4o.	concorrentes	Aumentável via solicitação.
Fine-tuning	Suporte apenas para alguns modelos parceiros (Cohere, Anthropic).	—	OpenAI GPT-4o via Bedrock não suporta fine-tuning até o momento.
Training jobs simultâneos	1 por conta (quando suportado)	—	Depende do provedor do modelo.

3. Google Vertex AI

Tipo de limite / Quota	Valor padrão / Exemplos	Unidade de tempo	Observações
Tokens por minuto (TPM) para modelos de texto (incluindo GPT-4o via Vertex AI)	Exemplo (GPT-4o): 90.000 TPM iniciais por projeto.	por minuto	Pode variar conforme região/projeto. Google Cloud Quotas
Requests por minuto (RPM)	Exemplo (GPT-4o): 300 RPM iniciais.	por minuto	Compartilhado entre endpoints do mesmo projeto.
Concorrência máxima por modelo	Máx. 5 requisições simultâneas.	concorrentes	Pode ser aumentado via solicitação de quota.
Deployments por projeto	Máx. 25 endpoints ativos por região.	—	Inclui LLMs e outros modelos.
Fine-tuning / Customização	Suporte a Adapter Tuning e Distillation (dependendo do modelo).	—	GPT-4o via Vertex AI atualmente não suporta fine-tuning.

Previous

Boas Praticas Git

Next

Service Account Impersonation - GCP

On this page

Cotas de Uso de APIs LLM — Azure / AWS / GCP Sumário 1. Azure OpenAI 2. AWS Bedrock 3. Google Vertex AI