谷歌发布Cloud TPU v5p与全新AI超级计算机：人工智能处理能力实现重大突破

谷歌发布Cloud TPU v5p、AI Hypercomputer和Dynamic Workload Scheduler，引领AI领域新篇章

谷歌近日发布了Cloud TPU v5p、具有突破性的超级计算机架构AI Hypercomputer以及资源管理工具Dynamic Workload Scheduler，这一系列创新引发了业界的广泛关注。这些产品标志着在处理组织的人工智能任务方面迈出了重要的一步，为人工智能计算性能的增强、优化架构以及灵活的消耗模型的新时代拉开了序幕。

Cloud TPU v5p是谷歌继去年11月发布的v5e之后的最强大的TPU。这款芯片以性能为驱动设计，每个pod配备8，960个芯片，芯片之间的互联速度达到4，800Gbps。相比于前代TPU v4，v5p在浮点运算每秒（FLOPS）方面提高了两倍的性能，并在高带宽内存(HBM)方面增加了三倍。在性能方面的聚焦取得了显著的成果，Cloud TPU v5p在训练大型LLM模型时的速度比TPU v4提高了惊人的2.8倍。利用第二代SparseCores，v5p在嵌入式密集模型方面的训练速度也比其前身快了1.9倍。

与此同时，AI Hypercomputer作为超级计算机架构的一场革命性变革。它融合了优化的性能硬件、开源软件、主要机器学习框架和可调整的消耗模型。AI Hypercomputer放弃了强化离散组件的传统方法，而是利用协同系统设计，提高了在培训、微调和服务领域的人工智能效率和生产力。这个先进的架构基于超大规模数据中心基础设施的精心优化的计算、存储和网络设计。它通过开源软件为开发人员提供了对相关硬件的访问，支持诸如JAX、TensorFlow和PyTorch等机器学习框架。这种集成扩展到Multislice Training和Multihost Inferencing等软件，同时深度集成了Google Kubernetes Engine（GKE）和Google Compute Engine。谷歌发布Cloud TPU v5p与全新AI超级计算机：人工智能处理能力实现重大突破

AI Hypercomputer的真正独特之处在于其灵活的消耗模型，专门满足人工智能任务的需求。它引入了创新的Dynamic Workload Scheduler和像承诺使用折扣（CUD）、按需和Spot等传统消耗模型的平台。这个资源管理和任务调度平台支持Cloud TPU和Nvidia GPU，简化了调度所有所需加速器以优化用户支出。在这个模型下，Flex Start选项非常适合模型微调、实验、较短的培训会话、离线推理和批处理任务。它提供了一种经济有效的方式，在执行前请求GPU和TPU容量。相反，Calendar模式允许预订特定的启动时间，满足对培训和实验任务需要精确启动时间和持续时间的要求，可提前8周购买，持续7或14天。

谷歌发布Cloud TPU v5p、AI Hypercomputer和Dynamic Workload Scheduler代表了人工智能处理能力的一大飞跃，引领着性能增强、优化架构和灵活的消耗模型的新时代。这些创新有望重新定义人工智能计算的格局，并为各行各业的突破性进展铺平道路。

ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具

谷歌发布Cloud TPU v5p与全新AI超级计算机：人工智能处理能力实现重大突破

相关文章

联系我们

微信747975991

谷歌发布Cloud TPU v5p与全新AI超级计算机：人工智能处理能力实现重大突破

相关文章

相关新闻

联系我们

微信747975991