Documentacoes
Cotas de Uso de APIs em provedores
Documento com as cotas de uso de API dos três provedores.
Cotas de Uso de APIs LLM — Azure / AWS / GCP
Data da última verificação: Setembro de 2025
Sumário
1. Azure OpenAI
| Tipo de limite / Quota | Valor padrão / Exemplos | Unidade de tempo | Observações |
|---|---|---|---|
| Tokens por minuto (TPM) / Requests por minuto (RPM) por modelo / por assinatura / região | Ex: para gpt-35-turbo em East US: quota de 240.000 TPM; RPM proporcional ao TPM. | por minuto | Quando cria um deployment, você atribui capacidade (unidades) que consomem de seu pool TPM/RPM. Microsoft Learn |
| Recursos Azure OpenAI por região / por assinatura | Máx. 30 recursos por região/assinatura. | — | “Recursos” refere-se a instâncias de serviço / deployments. Microsoft Learn |
| Limites de modelos de imagens (DALL-E 2, DALL-E 3, GPT-image-1) | DALL-E 2: 2 requisições concorrentes; DALL-E 3: 2 unidades de capacidade (~6 RPM) | por minuto / concorrentes | “Unidades de capacidade” varia por modelo; para modelos de imagem o RPM é baixo. Microsoft Learn |
| Máximo de deployments de modelos padrão (“standard deployments”) por recurso | 32 | — | Refere-se a modelos não fine-tuned. Microsoft Learn |
| Máximo de deployments fine-tuned por recurso | 5 | — | Microsoft Learn |
| Total de trabalhos de treinamento por recurso | 100 | — | Inclui fila ou histórico. Microsoft Learn |
| Trabalhos de treinamento simultâneos correntes por recurso | 1 | — | Apenas um ativo por vez. Microsoft Learn |
| Arquivos de fine-tuning (número / tamanho) | Até 50 arquivos, total de até 1 GB por recurso | — | Limite aplicado ao fine-tuning. Microsoft Learn |
2. AWS Bedrock
| Tipo de limite / Quota | Valor padrão / Exemplos | Unidade de tempo | Observações |
|---|---|---|---|
| Tokens por minuto (TPM) para modelos GPT (Anthropic, Mistral, Meta, Cohere e OpenAI GPT-4o via Bedrock) | Varia por modelo e região. Exemplo (GPT-4o): 90.000 TPM iniciais por conta. | por minuto | Limites podem ser aumentados via Service Quotas. |
| Requests por minuto (RPM) | Exemplo (GPT-4o): 300 RPM iniciais por conta. | por minuto | Distribuídos entre todos os endpoints Bedrock. |
| Concorrência máxima por modelo | Exemplo: até 5 chamadas simultâneas para modelos GPT-4o. | concorrentes | Aumentável via solicitação. |
| Fine-tuning | Suporte apenas para alguns modelos parceiros (Cohere, Anthropic). | — | OpenAI GPT-4o via Bedrock não suporta fine-tuning até o momento. |
| Training jobs simultâneos | 1 por conta (quando suportado) | — | Depende do provedor do modelo. |
3. Google Vertex AI
| Tipo de limite / Quota | Valor padrão / Exemplos | Unidade de tempo | Observações |
|---|---|---|---|
| Tokens por minuto (TPM) para modelos de texto (incluindo GPT-4o via Vertex AI) | Exemplo (GPT-4o): 90.000 TPM iniciais por projeto. | por minuto | Pode variar conforme região/projeto. Google Cloud Quotas |
| Requests por minuto (RPM) | Exemplo (GPT-4o): 300 RPM iniciais. | por minuto | Compartilhado entre endpoints do mesmo projeto. |
| Concorrência máxima por modelo | Máx. 5 requisições simultâneas. | concorrentes | Pode ser aumentado via solicitação de quota. |
| Deployments por projeto | Máx. 25 endpoints ativos por região. | — | Inclui LLMs e outros modelos. |
| Fine-tuning / Customização | Suporte a Adapter Tuning e Distillation (dependendo do modelo). | — | GPT-4o via Vertex AI atualmente não suporta fine-tuning. |