• 谷歌正快速扩张自己的云计算业务
  • 发布时间:2018-06-06 09:35 | 来源:hg0088 | 浏览:
  •   目前谷歌正快速扩张自己的云计算业务,TPU也依托于云平台运行。通过更低的售价让人工智能开发企业抛弃GPU,转投成本更低的TPU服务,是谷歌目前正在大力发展的业务。如果TPU无法获得巨大的市场份额从而降低单颗TPU的成本,那么谷歌将很难在人工智能市场盈利。不过,TPU强劲的计算性能和集群计算阵列可以让人工智能开发企业更快的开展业务。TPU的强大,让谷歌在人工智能芯片领域已称霸一方。
     
      上游厂商喊得再欢,落地到千人千面的行业场景中也要由解决方案商来帮忙,无论是GPU、FPGA还是TPU,最终还是要听听客户的使用感受。为此,我们采访了人工智能产品和行业解决方案提供商旷视科技。旷视科技利用自主研发的深度学习算法引擎Brain++,服务于金融安全、城市安防、手机AR、商业物联、工业机器人等五大核心行业。目前大多数人工智能企业青睐于GPU芯片,而TPU相对于GPU而言,采用8位低精度计算节省晶体管,对精度影响很小但是却可以大幅节约功耗。尤其是当大面积集成系统时,TPU不仅性能更强,功耗也会大幅低于GPU集成系统。由于芯片能力非常强大,谷歌使用了液冷散热技术,可以帮助TPU更好的为数据中心服务。更重要的是,英伟达在利用GPU构建训练环境时还考虑到了生态的重要性,这也是一直以来困扰人工智能发展的难题。首先,英伟达的NVIDIA GPU Cloud上线了AWS、阿里云等云平台,触及到了更多云平台上的开发者,预集成的高性能AI容器包括TensorFlow、PyTorch、MXNet等主流DL框架,降低了开发门槛、确保了多平台的兼容性。
     
      其次,英伟达也与研究机构、大学院校,以及向Facebook、YouTube这样的科技巨头合作,部署GPU服务器的数据中心。同时,还为全球数千家创业公司推出了Inception项目,除了提供技术和营销的支持,还会帮助这些公司在进入不同国家或地区的市场时,寻找潜在的投资机会。
     
      可以说,英伟达之于GPU领域的成功除了归功于Tesla加速器、NVIDIA DGX、NVIDIA HGX-2这些专属的工作站或云服务器平台,更依托于构建了完整的产业链通路,让新技术和产品有的放矢,从而形成了自己的生态圈,这也是英特尔难以去打破的。
     
      在不久前举行的谷歌I/O 2018开发者大会上,TPU3.0正式亮相。根据官方介绍,TPU3.0的计算能力最高可达100PFlops,是TPU2.0的8倍多。TPU的英文全名是Tensor Processor Unit,它是谷歌自主研发的针对深度学习加速的专用人工智能芯片。TPU是专为谷歌深度学习框架TensorFlow设计的人工智能芯片。著名的AlphaGo使用的就是TPU2.0芯片。
     
      谷歌TPU架构谷歌TPU架构
     
      除了强大的性能外,谷歌在生态系统的建设上做了大量的工作。在TPU1.0和2.0的初期,谷歌并没有大规模推进其商业化,而是围绕生态做文章。这就意味着要投入巨额的成本,而且冒着极大的市场风险。当然,背后的潜在市场也是巨大的。在人工智能市场竞争激烈的形势下,吸引到更多的开发者到谷歌的生态系统中,将会比对手有更强的竞争优势。
     
      TPU计算集群TPU计算集群
     
      在旷视科技看来,GPU、FPGA、TPU在通用性和能效比之间的取舍不同。其中,GPU最成熟,但也最耗资源,常用于训练神经网络和服务端;FPGA最灵活,能支持应用中出现的特殊操作,但要考虑灵活度和效率之间的trade-off;TPU相对最不灵活,但如果场景合适则能发挥出最大功用。
     
      如果拿汽车类比,GPU是大巴车,适合多人同目标;FPGA是小轿车,能到任何地方,但得自己会开;而TPU是火车,只能在比公路少的多的铁轨上开,但开的飞快。人工智能还在快速发展,还处于在各个行业落地的过程中。这个阶段对GPU,FPGA和TPU都有需求。
     
      目前,旷视科技选择的是T型技术方案,即在维持一定广度的同时,深耕某些应用场景,因此在算法实际落地的过程中,自然而然地产生了从GPU/CPU到FPGA的需求。GPU主要用于训练,而FPGA能在端上能提供比GPU更好的性能功耗比。CPU则是无处不在的“默认“选择。未来,不排除采用TPU的方案来进一步提高端上的能力。
     
      从行业来看,当前IoT领域对AI芯片的需求最为迫切,原因是IoT领域要求在有限的功耗下完成相应的AI任务,最需要性能功耗比高的AI芯片。至于未来要借助AI赋能各个行业,旷视科技认为,最初阶段可能都会先用GPU的AI方案,因为和源头(即神经网络训练阶段)衔接最好。另外对于中心化的应用,只要GPU按现在的“黄定律”的速度迭代前进,基于GPU在大批量处理数据的场景下仍然经常是公开可得的最佳方案。
  • 相关内容
  • Copyright 2015-2016 河北法律告示网 版权所有
  • 网站地图 |