Este documento descreve os modelos de GPU NVIDIA disponíveis no Compute Engine, que podem ser usados para acelerar o aprendizado de máquina (ML), o processamento de dados e as cargas de trabalho com uso intenso de gráficos nas instâncias de máquina virtual (VM). Este documento também detalha quais GPUs vêm pré-anexadas às séries de máquinas otimizadas para aceleradores, como A4X, A4, A3, A2 e G2, e quais GPUs podem ser anexadas a instâncias N1 de uso geral.
Use este documento para comparar a performance, a memória e os recursos de diferentes modelos de GPU. Para uma visão geral mais detalhada da família de máquinas otimizadas para aceleradores, incluindo informações sobre plataformas de CPU, opções de armazenamento e recursos de rede, e para encontrar o tipo de máquina específico que corresponde à sua carga de trabalho, consulte Família de máquinas otimizadas para aceleradores.
Para mais informações sobre GPUs no Compute Engine, consulte Sobre GPUs.
Para ver as regiões e zonas disponíveis para GPUs no Compute Engine, consulte Regiões de GPUs e disponibilidade de zonas.
Modelos de GPU disponíveis
Os seguintes modelos de GPU estão disponíveis com o tipo de máquina especificado para oferecer suporte às suas cargas de trabalho de IA, ML e HPC. Se você tiver cargas de trabalho com muitos gráficos, como a visualização em 3D, também poderá criar estações de trabalho virtuais que usam as estações de trabalho virtuais (vWS) NVIDIA RTX. A estação de trabalho virtual NVIDIA RTX está disponível para alguns modelos de GPU. Quando você cria uma instância que usa a estação de trabalho virtual NVIDIA RTX, o Compute Engine adiciona automaticamente uma licença de vWS. Para informações sobre preços de estações de trabalho virtuais, consulte a página de preços da GPU.
Para os tipos de máquina otimizados para aceleradores das séries A e G, o modelo de GPU especificado é anexado automaticamente à instância. Para os tipos de máquinas de uso geral N1, é possível anexar os modelos de GPU especificados.
Tipo de máquina | Modelo de GPU | Modelo da NVIDIA RTX Virtual Workstation (vWS) |
---|---|---|
A4X | Superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200 ).
Cada Superchip contém quatro GPUs NVIDIA B200 Blackwell. |
|
A4 | GPUs NVIDIA B200 Blackwell (nvidia-b200 ) |
|
A3 Ultra | GPUs NVIDIA H200 SXM (nvidia-h200-141gb ) |
|
A3 Mega |
GPUs NVIDIA H100 SXM (nvidia-h100-mega-80gb ) |
|
A3 High e A3 Edge |
GPUs NVIDIA H100 SXM (nvidia-h100-80gb ) |
|
A2 Ultra | GPUs NVIDIA A100 de 80 GB (nvidia-a100-80gb ) |
|
A2 Padrão | GPUs NVIDIA A100 de 40 GB (nvidia-a100-40gb ) |
|
G2 | NVIDIA L4 (nvidia-l4 ) |
NVIDIA L4 Virtual Workstations (vWS) (nvidia-l4-vws ) |
N1 | GPUs NVIDIA T4 (nvidia-tesla-t4 ) |
NVIDIA T4 Virtual Workstations (vWS) (nvidia-tesla-t4-vws ) |
GPUs NVIDIA P4 (nvidia-tesla-p4 ) |
Estações de trabalho virtuais (vWS) NVIDIA P4 (nvidia-tesla-p4-vws ) |
|
GPUs NVIDIA V100 (nvidia-tesla-v100 ) |
||
GPUs NVIDIA P100 (nvidia-tesla-p100 ) |
NVIDIA P100 Virtual Workstations (vWS) (nvidia-tesla-p100-vws ) |
Também é possível usar alguns tipos de máquinas com GPU no AI Hypercomputer. O Hipercomputador de IA é um sistema de supercomputação otimizado para oferecer suporte às suas cargas de trabalho de inteligência artificial (IA) e machine learning (ML). Essa opção é recomendada para criar uma infraestrutura densamente alocada e otimizada para performance com integrações para o Google Kubernetes Engine (GKE) e schedulers do Slurm.
Série de máquinas A4X
Os tipos de máquina otimizados para aceleradores A4X
usam superchips NVIDIA GB200 Grace Blackwell (nvidia-gb200
) e
são ideais para treinamento e disponibilização de modelos de base.
A A4X é uma plataforma de exaescala baseada em NVIDIA GB200 NVL72. Cada máquina tem dois soquetes com CPUs NVIDIA Grace e núcleos Arm Neoverse V2. Essas CPUs estão conectadas a quatro GPUs NVIDIA B200 Blackwell com comunicação rápida de chip para chip (NVLink-C2C).
Superchips NVIDIA GB200 Grace Blackwell conectados | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Contagem de vCPU* | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)† | Contagem de GPUs | Memória da GPU‡ (GB HBM3e) |
a4x-highgpu-4g |
140 | 884 | 12.000 | 6 | 2.000 | 4 | 720 |
*Uma vCPU é implementada como um único hiperthread de hardware em uma
das plataformas de CPU disponíveis.
†A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
‡A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
Série de máquinas A4
Os tipos de máquina otimizados para acelerador A4
têm GPUs NVIDIA B200 Blackwell
(nvidia-b200
) anexadas e são ideais para treinamento e disponibilização de modelos de base.
GPUs NVIDIA Blackwell anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Contagem de vCPU* | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)† | Contagem de GPUs | Memória da GPU‡ (GB HBM3e) |
a4-highgpu-8g |
224 | 3.968 | 12.000 | 10 | 3.600 | 8 | 1,440 |
*Uma vCPU é implementada como um único hiperthread de hardware em uma
das plataformas de CPU disponíveis.
†A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte
Largura de banda de rede.
‡A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
Série de máquinas A3
Os tipos de máquina otimizados para aceleradores A3 têm GPUs NVIDIA H100 SXM ou NVIDIA H200 SXM conectadas.
Tipo de máquina A3 Ultra
Os tipos de máquina A3 Ultra
têm GPUs NVIDIA H200 SXM
(nvidia-h200-141gb
) anexadas e oferecem o maior desempenho de rede
na série A3. Os tipos de máquina A3 Ultra são ideais para treinamento e
serviço de modelos de fundação.
GPUs NVIDIA H200 anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Contagem de vCPU* | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)† | Contagem de GPUs | Memória da GPU‡ (GB HBM3e) |
a3-ultragpu-8g |
224 | 2.952 | 12.000 | 10 | 3.600 | 8 | 1128 |
*Uma vCPU é implementada como um único hiperthread de hardware em uma
das plataformas de CPU disponíveis.
†A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
‡A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
Tipos de máquina A3 Mega, High e Edge
Para usar GPUs NVIDIA H100 SXM, você tem as seguintes opções:
- A3 Mega: esses tipos de máquinas têm GPUs H100 SXM (
nvidia-h100-mega-80gb
) e são ideais para treinamento em grande escala e cargas de trabalho de serviço. - A3 High: esses tipos de máquina têm GPUs H100 SXM (
nvidia-h100-80gb
) e são adequados para tarefas de treinamento e serviço. - A3 Edge: esses tipos de máquina têm GPUs H100 SXM (
nvidia-h100-80gb
), são projetados especificamente para veiculação e estão disponíveis em um conjunto limitado de regiões.
A3 Mega
GPUs NVIDIA H100 anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Contagem de vCPU* | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)† | Contagem de GPUs | Memória da GPU‡ (GB HBM3) |
a3-megagpu-8g |
208 | 1.872 | 6.000 | 9 | 1.800 | 8 | 640 |
A3 Alto
GPUs NVIDIA H100 anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Contagem de vCPU* | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)† | Contagem de GPUs | Memória da GPU‡ (GB HBM3) |
a3-highgpu-1g |
26 | 234 | 750 | 1 | 25 | 1 | 80 |
a3-highgpu-2g |
52 | 468 | 1.500 | 1 | 50 | 2 | 160 |
a3-highgpu-4g |
104 | 936 | 3.000 | 1 | 100 | 4 | 320 |
a3-highgpu-8g |
208 | 1.872 | 6.000 | 5 | 1.000 | 8 | 640 |
A3 Edge
GPUs NVIDIA H100 anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Contagem de vCPU* | Memória da instância (GB) | SSD local anexado (GiB) | Contagem de NICs físicas | Largura de banda máxima da rede (Gbps)† | Contagem de GPUs | Memória da GPU‡ (GB HBM3) |
a3-edgegpu-8g |
208 | 1.872 | 6.000 | 5 |
|
8 | 640 |
*Uma vCPU é implementada como um único hiperthread de hardware em uma
das plataformas de CPU disponíveis.
†A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
‡A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
Série de máquina A2
Os tipos de máquina A2 otimizados para aceleradores têm GPUs NVIDIA A100 anexadas e são ideais para ajuste fino de modelos, modelos grandes e inferência otimizada para custos.
A série de máquinas A2 está disponível em dois tipos:
- A2 Ultra: esses tipos de máquina têm GPUs A100 de 80 GB
(
nvidia-a100-80gb
) e discos SSD locais anexados. - A2 Standard: esses tipos de máquina têm GPUs A100 de 40 GB
(
nvidia-tesla-a100
) anexadas. Também é possível adicionar discos SSD locais ao criar uma instância A2 Standard. Para saber o número de discos que podem ser anexados, consulte Tipos de máquina que exigem que você escolha um número de discos SSD locais.
A2 Ultra
GPUs NVIDIA A100 de 80 GB anexadas | ||||||
---|---|---|---|---|---|---|
Tipo de máquina | Contagem de vCPU* | Memória da instância (GB) | SSD local anexado (GiB) | Largura de banda máxima da rede (Gbps)† | Contagem de GPUs | Memória da GPU‡ (GB HBM3) |
a2-ultragpu-1g |
12 | 170 | 375 | 24 | 1 | 80 |
a2-ultragpu-2g |
24 | 340 | 750 | 32 | 2 | 160 |
a2-ultragpu-4g |
48 | 680 | 1.500 | 50 | 4 | 320 |
a2-ultragpu-8g |
96 | 1.360 | 3.000 | 100 | 8 | 640 |
A2 Padrão
GPUs NVIDIA A100 de 40 GB anexadas | ||||||
---|---|---|---|---|---|---|
Tipo de máquina | Contagem de vCPU* | Memória da instância (GB) | Compatível com SSD local | Largura de banda máxima da rede (Gbps)† | Contagem de GPUs | Memória da GPU‡ (GB HBM3) |
a2-highgpu-1g |
12 | 85 | Sim | 24 | 1 | 40 |
a2-highgpu-2g |
24 | 170 | Sim | 32 | 2 | 80 |
a2-highgpu-4g |
48 | 340 | Sim | 50 | 4 | 160 |
a2-highgpu-8g |
96 | 680 | Sim | 100 | 8 | 320 |
a2-megagpu-16g |
96 | 1.360 | Sim | 100 | 16 | 640 |
*Uma vCPU é implementada como um único hiperthread de hardware em uma
das plataformas de CPU disponíveis.
†A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
‡A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
Série de máquinas G2
Os tipos de máquina G2 otimizados para acelerador têm GPUs NVIDIA L4 anexadas e são ideais para inferência otimizada para custos, cargas de trabalho de computação de alto desempenho e com uso intenso de gráficos.
Cada tipo de máquina G2 também tem uma memória padrão e um intervalo de memória personalizado. O intervalo de memória personalizado define a quantidade de memória que pode ser alocada à instância para cada tipo de máquina. Também é possível adicionar discos SSD locais ao criar uma instância G2. Para saber o número de discos que podem ser anexados, consulte Tipos de máquina que exigem que você escolha um número de discos SSD locais.
GPUs NVIDIA L4 anexadas | |||||||
---|---|---|---|---|---|---|---|
Tipo de máquina | Contagem de vCPU* | Memória padrão da instância (GB) | Intervalo de memória personalizada da instância (GB) | Suporte máximo para SSD local (GiB) | Largura de banda máxima da rede (Gbps)† | Contagem de GPUs | Memória da GPU‡ (GB GDDR6) |
g2-standard-4 |
4 | 16 | 16 a 32 | 375 | 10 | 1 | 24 |
g2-standard-8 |
8 | 32 | 32 a 54 | 375 | 16 | 1 | 24 |
g2-standard-12 |
12 | 48 | 48 a 54 | 375 | 16 | 1 | 24 |
g2-standard-16 |
16 | 64 | 54 a 64 | 375 | 32 | 1 | 24 |
g2-standard-24 |
24 | 96 | 96 a 108 | 750 | 32 | 2 | 48 |
g2-standard-32 |
32 | 128 | 96 a 128 | 375 | 32 | 1 | 24 |
g2-standard-48 |
48 | 192 | 192 a 216 | 1.500 | 50 | 4 | 96 |
g2-standard-96 |
96 | 384 | 384 a 432 | 3.000 | 100 | 8 | 192 |
*Uma vCPU é implementada como um único hiperthread de hardware em uma
das plataformas de CPU disponíveis.
†A largura de banda de saída máxima não pode exceder o número informado. A largura
de banda de saída real depende do endereço IP de destino e de outros fatores.
Para mais informações sobre largura de banda de rede, consulte Largura de banda de rede.
‡A memória da GPU é a memória em um dispositivo GPU que pode ser usada para
armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
Série de máquinas N1
É possível anexar os seguintes modelos de GPU a um tipo de máquina N1, com exceção dos tipos de máquinas N1 com núcleo compartilhado.
Ao contrário dos tipos de máquinas na série otimizada para aceleradores, os tipos de máquinas N1 não vêm com um número definido de GPUs anexadas. Em vez disso, especifique o número de GPUs a serem anexadas ao criar a instância.
As instâncias N1 com menos GPUs limitam o número máximo de vCPUs. Em geral, um número maior de GPUs possibilita a criação de instâncias com um número maior de vCPUs e memória.
GPUs N1+T4
É possível anexar GPUs NVIDIA T4 a instâncias de uso geral N1 com as seguintes configurações de instância.
Tipo de acelerador | Contagem de GPUs | Memória da GPU* (GB GDDR6) | Contagem de vCPU | Memória da instância (GB) | Compatível com SSD local |
---|---|---|---|---|---|
nvidia-tesla-t4 ou nvidia-tesla-t4-vws
|
1 | 16 | 1 a 48 | 1 a 312 | Sim |
2 | 32 | 1 a 48 | 1 a 312 | Sim | |
4 | 64 | 1 a 96 | 1 a 624 | Sim |
*A memória da GPU é a memória disponível em um dispositivo GPU que você pode usar para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
GPUs N1+P4
É possível anexar GPUs NVIDIA P4 a instâncias de uso geral N1 com as seguintes configurações de instância.
Tipo de acelerador | Contagem de GPUs | Memória da GPU* (GB GDDR5) | Contagem de vCPU | Memória da instância (GB) | Compatível com SSD local† |
---|---|---|---|---|---|
nvidia-tesla-p4 ou nvidia-tesla-p4-vws
|
1 | 8 | 1 a 24 | 1 a 156 | Sim |
2 | 16 | 1 a 48 | 1 a 312 | Sim | |
4 | 32 | 1 a 96 | 1 a 624 | Sim |
*A memória da GPU é a memória disponível em um dispositivo GPU que pode ser usada para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
†Para instâncias com GPUs NVIDIA P4 anexadas, os discos SSD locais
só são compatíveis com as zonas us-central1-c
e
northamerica-northeast1-b
.
GPUs N1+V100
É possível anexar GPUs NVIDIA V100 a instâncias de uso geral N1 com as seguintes configurações de instância.
Tipo de acelerador | Contagem de GPUs | Memória da GPU* (GB HBM2) | Contagem de vCPU | Memória da instância (GB) | Compatível com SSD local† |
---|---|---|---|---|---|
nvidia-tesla-v100 |
1 | 16 | 1 a 12 | 1 a 78 | Sim |
2 | 32 | 1 a 24 | 1 a 156 | Sim | |
4 | 64 | 1 a 48 | 1 a 312 | Sim | |
8 | 128 | 1 a 96 | 1 a 624 | Sim |
*A memória da GPU é a memória disponível em um dispositivo GPU que você pode usar
para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
†Para instâncias com GPUs NVIDIA V100 anexadas, os discos SSD locais
não são compatíveis com us-east1-c
.
GPUs N1+P100
É possível anexar GPUs NVIDIA P100 a instâncias de uso geral N1 com as seguintes configurações de instância.
Para algumas GPUs NVIDIA P100, a CPU máxima e a memória disponível para algumas configurações dependem da zona em que o recurso da GPU é executado.
Tipo de acelerador | Contagem de GPUs | Memória da GPU* (GB HBM2) | Zona | Contagem de vCPU | Memória da instância (GB) | Compatível com SSD local |
---|---|---|---|---|---|---|
nvidia-tesla-p100 ou nvidia-tesla-p100-vws
|
1 | 16 | Todas as zonas P100 | 1 a 16 | 1 a 104 | Sim |
2 | 32 | Todas as zonas P100 | 1 a 32 | 1 a 208 | Sim | |
4 | 64 | us-east1-c , europe-west1-d , europe-west1-b |
1 a 64 | 1 a 208 | Sim | |
Todas as outras zonas P100 | 1 a 96 | 1 a 624 | Sim |
*A memória da GPU é a memória disponível em um dispositivo GPU que você pode usar para armazenamento temporário de dados. Ela é separada da memória da instância e foi projetada especificamente para lidar com as demandas de largura de banda mais altas das cargas de trabalho com uso intensivo de gráficos.
Gráfico de comparação geral
A tabela a seguir descreve o tamanho da memória da GPU, a disponibilidade de recursos e os tipos de carga de trabalho ideais nos diferentes modelos de GPU disponíveis no Compute Engine.
Modelo de GPU | Memória da GPU | Interconexão | Compatibilidade com NVIDIA RTX Virtual Workstation (vWS) | Melhor aplicação |
---|---|---|---|---|
GB200 | 180 GB HBM3e a 8 TBps | NVLink Full Mesh a 1.800 GBps | Treinamento e inferência distribuídos em grande escala de LLMs, sistemas de recomendação e HPC | |
B200 | 180 GB HBM3e a 8 TBps | NVLink Full Mesh a 1.800 GBps | Treinamento e inferência distribuídos em grande escala de LLMs, sistemas de recomendação e HPC | |
H200 | 141 GB HBM3e a 4,8 TBps | Malha completa NVLink com 900 GBps | Modelos grandes com tabelas de dados enormes para treinamento de ML, inferência, HPC, BERT e DLRM | |
H100 | 80 GB HBM3 a 3,35 TBps | Malha completa NVLink com 900 GBps | Modelos grandes com tabelas de dados enormes para treinamento de ML, inferência, HPC, BERT e DLRM | |
A100 80 GB | 80 GB HBM2e a 1,9 TBps | NVLink Full Mesh a 600 GBps | Modelos grandes com tabelas de dados enormes para treinamento de ML, inferência, HPC, BERT e DLRM | |
A100 40 GB | 40 GB HBM2 a 1,6 TBps | NVLink Full Mesh a 600 GBps | Treinamento de ML, inferência, HPC | |
L4 | 24 GB GDDR6 a 300 GBps | N/A | Inferência de ML, treinamento, estações de trabalho de visualização remota, transcodificação de vídeos | |
T4 | 16 GB GDDR6 a 320 GBps | N/A | Inferência de ML, treinamento, estações de trabalho de visualização remota, transcodificação de vídeos | |
V100 | 16 GB HBM2 a 900 GBps | NVLink Ring com 300 GBps | Treinamento de ML, inferência, HPC | |
P4 | 8 GB GDDR5 a 192 GBps | N/A | Estações de trabalho de visualização remota, inferência de ML e transcodificação de vídeos | |
P100 | 16 GB HBM2 a 732 GBps | N/A | Treinamento de ML, inferência, HPC, estações de trabalho de visualização remota |
Para comparar os preços de GPU para os diferentes modelos e regiões de GPU disponíveis no Compute Engine, consulte o sistema de preços de GPU.
Gráfico de comparação de desempenho
A tabela a seguir descreve as especificações de desempenho de diferentes modelos de GPU disponíveis no Compute Engine.
Desempenho de computação
Modelo de GPU | FP64 | FP32 | FP16 | INT8 |
---|---|---|---|---|
GB200 | 90 TFLOPS | 180 TFLOPS | ||
B200 | 40 TFLOPS | 80 TFLOPS | ||
H200 | 34 TFLOPS | 67 TFLOPS | ||
H100 | 34 TFLOPS | 67 TFLOPS | ||
A100 80 GB | 9,7 TFLOPS | 19,5 TFLOPS | ||
A100 40 GB | 9,7 TFLOPS | 19,5 TFLOPS | ||
L4 | 0.5 TFLOPS* | 30.3 TFLOPS | ||
T4 | 0,25 TFLOPS* | 8,1 TFLOPS | ||
V100 | 7,8 TFLOPS | 15,7 TFLOPS | ||
P4 | 0,2 TFLOPS* | 5,5 TFLOPS | 22 TOPS† | |
P100 | 4,7 TFLOPS | 9,3 TFLOPS | 18,7 TFLOPS |
*Para que o código FP64 funcione corretamente, a arquitetura da GPU T4, L4 e P4 inclui um pequeno número de unidades de hardware FP64.
†TeraOperações por segundo.
Desempenho do Tensor Core
Modelo de GPU | FP64 | TF32 | FP16/FP32 de precisão mista | INT8 | INT4 | FP8 |
---|---|---|---|---|---|---|
GB200 | 90 TFLOPS | 2,500 TFLOPS† | 5.000 TFLOPS*, † | 10.000 TFLOPS† | 20.000 TFLOPS† | 10.000 TFLOPS† |
B200 | 40 TFLOPS | 1,100 TFLOPS† | 4.500 TFLOPS*, † | 9.000 TFLOPS† | 9.000 TFLOPS† | |
H200 | 67 TFLOPS | 989 TFLOPS† | 1,979 TFLOPS*, † | 3,958 TOPS† | 3,958 TFLOPS† | |
H100 | 67 TFLOPS | 989 TFLOPS† | 1,979 TFLOPS*, † | 3,958 TOPS† | 3,958 TFLOPS† | |
A100 80 GB | 19,5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
A100 40 GB | 19,5 TFLOPS | 156 TFLOPS | 312 TFLOPS* | 624 TOPS | 1248 TOPS | |
L4 | 120 TFLOPS† | 242 TFLOPS*, † | 485 TOPS† | 485 TFLOPS† | ||
T4 | 65 TFLOPS | 130 TOPS | 260 TOPS | |||
V100 | 125 TFLOPS | |||||
P4 | ||||||
P100 |
*Para treinamento de precisão mista, as GPUs NVIDIA GB200, B200, H200, H100, A100 e L4 também são compatíveis com o tipo de dados bfloat16
.
†As GPUs NVIDIA GB200, B200, H200, H100 e L4
são compatíveis com a esparsidade estrutural. É possível usar a esparsidade estrutural para dobrar a performance dos seus modelos. Os valores documentados se aplicam ao usar a redução de dados estruturada.
Se você não estiver usando a esparsidade estruturada, os valores serão reduzidos pela metade.
A seguir
- Saiba mais sobre as GPUs do Compute Engine.
- Confira a disponibilidade de regiões e zonas de GPU.
- Consulte Larguras de banda de rede e GPUs.
- Confira os detalhes de preços das GPUs.