banner
Lar / blog / Detalhes sobre as atualizações de IA do Google para infraestrutura em nuvem • The Register
blog

Detalhes sobre as atualizações de IA do Google para infraestrutura em nuvem • The Register

Aug 10, 2023Aug 10, 2023

Cloud Next O Google está fortemente focado em IA no Cloud Next deste ano, com uma série de projetos de hardware, incluindo atualizações de TPU, opções de GPU e um conjunto de ferramentas de software para fazer tudo funcionar.

Na primeira versão presencial do evento desde antes da pandemia, realizada no enorme Moscone Center em São Francisco, o Google divulgou detalhes sobre seu Cloud TPU v5e, o mais recente de seus aceleradores Tensor Processing Unit AI, além de instâncias de máquinas virtuais alimentadas pelas GPUs Nvidia H100.

TPUs são o silício personalizado do Google para acelerar o aprendizado de máquina, e o serviço Cloud TPU é baseado na estrutura de aprendizado de máquina TensorFlow da própria empresa, além de outras estruturas, incluindo Jax e PyTorch.

Seu chip AI anterior, TPU v4, foi lançado oficialmente em 2021, embora o gigante das buscas já o estivesse testando vários anos antes.

Com o Cloud TPU v5e, o Google afirma ter dobrado o desempenho de treinamento por dólar e 2,5 vezes o desempenho de inferência por dólar em modelos de linguagem grandes (LLMs) e IA generativa, quando comparado com o Cloud TPU v4.

A gigante da nuvem usa mecanismos TPUv4 para fazer inferências para seu próprio mecanismo de busca e plataformas de veiculação de anúncios.

O Google oferecerá oito configurações diferentes de máquinas virtuais, variando de um chip TPU a mais de 250 em uma única fatia.

Não se trata apenas de hardware, é claro. Eles estão se concentrando em maior escalabilidade para lidar com grandes cargas de trabalho de IA no Cloud TPU v5e com um recurso chamado Multislice. Atualmente em versão prévia, isso foi desenvolvido para permitir que os usuários dimensionem modelos além dos limites de um único pod de TPU para abranger dezenas de milhares de chips de TPU, se necessário. Anteriormente, os trabalhos de treinamento eram limitados a uma única fatia de chips TPU.

Também destinadas a cargas de trabalho exigentes de IA, como LLMs, estão as instâncias de máquinas virtuais A3 do Google, que possuem oito GPUs Nvidia H100, processadores escaláveis ​​Intel Xeon duplos de 4ª geração e 2 TB de memória. Essas instâncias foram anunciadas pela primeira vez no Google IO em maio, mas agora devem estar disponíveis no próximo mês, disse.

Com melhorias na largura de banda da rede devido a um adaptador de rede offload e à Nvidia Connective Communications Library (NCCL), o Google espera que as máquinas virtuais A3 forneçam um impulso para os usuários que buscam construir modelos de IA cada vez mais sofisticados.

O Google Next também forneceu detalhes sobre o GKE Enterprise, descrito como uma edição premium do serviço Google Kubernetes Engine (GKE) gerenciado pela empresa para cargas de trabalho em contêineres.

A edição GKE Enterprise, que estará disponível em versão prévia no início de setembro, apresenta um novo recurso de vários clusters que permite aos clientes agrupar cargas de trabalho semelhantes como “frotas” e aplicar configurações personalizadas e proteções políticas em toda a frota, disse o Google.

Esta edição vem com recursos de segurança gerenciados, incluindo insights de vulnerabilidade de carga de trabalho, governança e controles de políticas, além de uma malha de serviço gerenciada. Com recursos extraídos da plataforma Anthos do Google, a empresa afirma que a edição GKE Enterprise pode abranger cenários híbridos e multinuvem para permitir que os usuários executem cargas de trabalho de contêiner em outras nuvens públicas e locais, bem como no GKE.

Além disso, o próprio GKE agora suporta instâncias de máquina virtual Cloud TPU v5e e A3 com GPUs H100 para cargas de trabalho exigentes de IA, disse o Google.

Também continuando com o tema IA, o Google está trazendo acréscimos à sua oferta Google Distributed Cloud (GDC), além de hardware atualizado para oferecer suporte à extensão local para sua plataforma em nuvem.

As três novas ofertas de IA e dados são integrações Vertex AI, AlloyDB Omni e Dataproc Spark. As integrações Vertex trazem Vertex Prediction e Vertex Pipelines para o GDC Hosted, embora estes só estejam disponíveis na versão prévia a partir do segundo trimestre de 2024.

AlloyDB Omni é um novo mecanismo de banco de dados gerenciado que afirma oferecer o dobro da velocidade do PostgreSQL para cargas de trabalho transacionais e atualmente está disponível em versão prévia.

Dataproc Spark é um serviço gerenciado para executar cargas de trabalho analíticas no Apache Spark, que supostamente oferece aos usuários custos mais baixos do que a implantação do Spark por conta própria. Ele estará disponível em versão prévia a partir do quarto trimestre.