此篇文章介绍了阿里巴巴云内容推荐场景的推荐技术体系结构,以及在阿里巴巴云中大型分布式GPU VM节点上的性能优化工作和结果。阿里团队需要在一小时内训练大约200亿个样品。该模型具有较高的通信计算比,采用Tensorflow实现,对大型分布式节点,特别是云计算虚拟网络中的可扩展性较差。此外,其团队优化了通信和IO方面的性能,在64个GPU虚拟机上比原来的实现速度提高了14倍以上,并在一小时内用阿里巴巴云的64个GPU虚拟机训练了200多亿个样本。
示说网详情链接 一家专门做技术在线分享的平台!
本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728