独家对话燧原科技创始人张亚林:逆全球化下国产AI算力如何解决商业落地问题?|钛媒体AGI爱游戏官网

 

  爱游戏app体育成立6年多,累计融资额近70亿元人民币,估值已达160亿元(胡润数据)......这是腾讯投资的一家AI算力企业——燧原科技交出的最新成绩单。

  美国哈佛商学院教授、“颠覆性创新之父”克里斯坦森(Clayton M. Christensen)在研究贝索斯、马斯克等多位顶级创业者后,在《创新者的基因》一书中得出结论:全球经济发展中,创新是生命之源,是企业首要的战略考虑。但同时,一个创新领导者,不仅应该是思考者,更应该是一个会把思考及时付诸行动的人。

  在中国 AI 算力赛道当中,燧原科技创始人兼COO(首席运营官)张亚林正是这样一位领导者。

  创立燧原科技之前,张亚林曾在AMD工作了11年,他带领AMD上海研发中心成功开发并量产多颗旗舰处理器,拥有丰富的工程和产品化实战经验。

  在张亚林的带领下,作为通用人工智能(AGI)算力基础设施服务商,燧原科技已完成 AI 算力产品的开发、量产和规模化落地,涵盖板卡、智算一体机、液冷算力集群以及配套的软件系统。同时,燧原也是腾讯自2018年起持续投资的国产AI算力供应商。

  张亚林认为,大模型时代下,算力对于中国驱动 AI 技术的发展至关重要。生成式 AI 技术恰恰依赖于底层硬件和软件架构,来执行复杂的算法和处理数据,从而实现智能交互功能,而这一切都离不开算力底座的支持。

  近日在上海举行的WAIC 2024(世界人工智能大会)前夕,张亚林与钛媒体App进行了独家交流。

  张亚林对钛媒体App表示,本土算力中心的商业化落地,需要AIDC(智算中心)+AIGC(生成式人工智能)结合形成“双轮驱动”。智算中心“谁来建设、谁来运营、谁来使用”是三个很重要的问题,其关键点在于谁来用。只有用户愿意来使用算力,才有人愿意来运营,投资建设方才能收回成本,形成可持续发展的闭环。

  如今,燧原科技正不断构建完整的算力中心生态圈。今年5月末,由燧原科技产品提供支撑的宜昌点军智算中心实现运营。从建立到运营仅用1年时间,燧原就完成了300P国产算力建设和交付,并实现上线%。而且,燧原科技还在四川成都、甘肃庆阳等地展开智算中心建设及合作,实现国产智算设施的落地和商业化。

  张亚林指出,智算中心是一个至少3-5年长周期的落地运营过程,需要投建方、运营方、使用方一起合作共赢。同时,面对短期的市场环境,燧原科技自身需要开源、节流,打造生态护城河,持续构建和打磨生态。

  展望未来,张亚林强调,中国在 AI 领域垂直应用具有更多的优势,从而会推动国产 AI 算力部署,促进国产算力产品的升级迭代。同时,通过云、边、端协同发展,聚焦大模型精细化、行业落地以及云边端一体化,实现 AI 行业发展。

  “中国一定会在 AI 算力层面‘百花齐放’,”张亚林对钛媒体App表示。

  以下是张亚林与钛媒体的独家对话速记,经钛媒体AGI编辑整理:钛媒体:近期全国各地都在建 AI 算力集群,那么,燧原的运营思路是怎样的?

  张亚林:在智算新时代,其实很重要的就是,一个智算(算力)中心如何商业价值变现。

  而燧原的策略是用“AIGC+AIDC”双轮驱动,以解决三个关键问题:谁来建设、谁来运营、谁来使用,从而实现真正的商业价值。

  具体来说,智算中心是一个庞然大物,这里面涉及到整个智算中心市场要顺利运行,让它能够实现商业价值的落地。

  第二个是真正商业价值变现的运营(实操)方。因为智算中心是一个以3~5年来做运营周期的系统方案。

  实际上,如果算商业价值来说,如何让运营方去通过实现租赁变现赚到钱,其实背后有一套体系。就运营方来说,一次性基础设施投入包括基建、硬件设备采买、软件服务和云服务、大模型预装,这是智算中心的资本支出(Capital expenditures)。然后还有运营成本支出(Operating expenses),如果以5年计算,每一年运营成本包括运维费用、机器维修费、水电管理费爱游戏官网、运维人员管理费、人员成本等等,其实这些都构建成了每一年的运营开销,乘以五年,成为整个智算中心的投入成本。另外,算力租赁的使用率通常为70%-80%,加上每台服务器的大概金额,可以算出来5年的算力租赁带来的最终回报。

  而这中间就会产生一个价差,如果这个价差是正的话,运营方就能赚到钱,如果是负的话运营方就亏本。当然,这里还有政策补贴,比如“算力券”、固定投资补贴等。所以,运营方的投入核心就是在两方面:一是投入的成本、硬件设备和预装软件服务成本是否有足够的性价比;二是算力中心基础设施是否有足够的性价比。同时在产出层面,运营方的AI加速卡和设备在运行大模型及其应用时是否有一个合理的价格,从而实现盈利,所以这又涉及到卡的性能是否能达到一定的租赁价格——这其实是一个性价比的问题。

  综合因素考虑下,如果运营方最终要实现商业价值闭环,就谁来运营,就需要去评估整个商业价值闭环。

  首先,应用方是由谁来牵引,算力提供方、基础设施提供方、投建方还是运营方;第二,这些客户愿不愿意购买你的算力,租赁你的算力,所以这又回到刚刚涉及的,就是你的卡好不好用、易不易用,本身产品有没有性价比,包括政府的政策和补贴,加一起是否有足够吸引力,这些其实是比较关键的。

  举例来说,如果今天因为你的产品具有性价比,客户愿意租赁服务器,然后能够用满,比如(未来)在3年到5年,你的服务器上架率或者使用率能够达到80%以上,甚至超过90%的话,整个算力的利润空间就会上升,背后其实是一个商业帐。反之,如果产品面不行、性价比不行、或者政策补贴力度不够,最终用户群体不够多,就会产生算力使用率不饱和、空置率等现象,导致算力利润偏低。

  所以,智算中心就是“谁来投建、谁来运营、谁来使用”这样一个商业逻辑的概念。

  新的形势下,国内的算力建设趋于“后轮驱动”,也就是有多少客户使用,来催生是否有企业愿意运营,是否有人愿意投建。所以,新的智算中心商业变现业态,首先是本身产品有足够的性价比,租赁价格有足够的吸引力,生态有足够的泛化性,才能让更多用户有租赁的意愿,或者是租赁的订单爱游戏官网。这样你拿到订单之后,才能让运营商愿意入场,进而反向推动投建方的信心,从而实现智算中心的商业化。

  因此,整个智算中心如果是实现商业闭环的话,最后就回到了一个核心点:谁来用、多少人愿意用、大家愿意出多少钱来用......这些终极问题。

  目前在国内,首先绝大部分算力消纳需求大的用户还是在互联网;其次可能是垂直行业与央国企,最后是初创大模型公司等。所以,对于中国的算力提供商来说,最重要的就是能不能够真正找到跟你产品有更大范围结合的用户,愿意为你的产品买单的用户群体有多少,它会驱动企业未来能够实现数据中心的商业闭环的力度有多大。

  钛媒体:AI 和半导体产业存在一定的周期性,长期来看,一旦这轮 AI 热潮降下来,智算中心就很难有满载率。那么,燧原如何解决这一挑战?

  张亚林:这其实是智算中心的“商业测算”概念。举个例子。假设智算中心是5年的一个运营周期,中间可能会经历波峰和波谷,我不能只看现在的情况,所以这是一个整体测算的问题。

  整体测算里面分两类:第一类是有的客户愿意承租3~5年,根据自身的业务发展,也考虑了一定的风险,长期租赁的价格相对会中和一些;第二类是短期客户,根据业务的弹性需求进行租赁,价格相对高,也会承担算力供应的风险。

  所以从宏观角度来讲,智算中心在一个测算过程中,是一个平均使用率的概念。因此,需要有一个比较谨慎的方式进行测算,肯定不能用100%的峰值去测算平均使用率。

  通常保守估计,用70%-80%左右去衡量平均使用率,这样的线年之内可以平均波峰波谷情况,当然具体还是要看运营成本、空置率和平均使用时长等,从而保证智算中心在5年的运营周期中是可以盈利的。

  但其实,中国的智算中心都还在前一、两年的商业模式探索过程中,只是一个初始阶段。随着时间的推移,设备会折旧、算法会演进、波峰波谷会出现,很多的事情会发生变化,

  然而另一个问题是,尽管我们可能没有办法完全预测未来这几年的一个变化,但至少,我们现阶段在第一步智算中心的建设里面,遵照“谁来使用,谁来运营,谁来投建”这种合理的商业模式,合理的逻辑线,这是必须的。

  钛媒体:AI 和算力半导体领域都具有很长的周期性,也就是“长期主义”,但国内资本却需要募投管退的短期需求,那么,燧原如何在新的变局环境下解决长期和短线问题?

  这样一个长期主义过程中,企业规模化、商业化爬坡时比较慢的,它需要更多产品迭代、生态扩充、客户群的扩大,还有 AI 本身的技术趋势不断变革。

  所以,我认为需要做到三个点解决变局问题:开源,节流,以及持续构建生态护城河。

  通过产品不断迭代,持续扩大收入,持续提高毛利,持续构建能落地、规模化的商业模式。收入一定要高速成长,毛利要稳健,商业模式要清晰。只有这样,才能吸引更多长期主义资本的投资。中国也鼓励长期资本的存在,能够给商业面的持续增长信心的话,我觉得长期资本是愿意陪伴你的。如果能稳健增长,你的商业模式不断清晰,客户群不断扩大,你的自我造血能力不断增强,长期主义的资本也会不停的加持你。

  节流并不是一个反义词。一个公司本身的组织效能、运营效能,反映了公司持续高效运作的一个根本。公司在发展过程中,一开始大家都比较有热情、动力和活力,但随着时间拉长,各种问题出现,很多公司就出现了各种疲态,甚至出现离职潮,这就是在扩大和成长过程中出现了组织问题。有些公司在规模化过程中也遇到了供应链问题,无法规模化供货,也无法提升毛利,这都跟内部管理机制有关。所以企业一定要持续提升你的运营效率、组织效率,持续打造一个有战斗力、有活力的团队,让你的开发能力、开发效能提高,从而更好降低你的产品成本,提升你的毛利。

  节流和开源是相辅相成的。企业需要在开源和节流层面做更多工作,让资本、合作伙伴相信你能稳健运营公司。

  实际上,高科技企业都遵循了一个原则,就是如果前期(几年甚至10年)的发展需要迭代的话,它其实是一个缓步前行的过程。所以发展的曲线的斜面斜率是比较平缓的,但是到了某个时间点之后,你会产生一个“拐点效应”,就是产品的爆发点,或公司实现规模化的爆发点,背后其实是取决于你的产品,取决于生态的基本面。而“生态”其实是一个广义的生态,包含你的产品技术实力、泛化性、客户群,生态伙伴的能力和加持力。所以,在一个企业的发展曲线过程中,通过积累和打磨,你的产品是否会出现一个拐点式的增长,实现高速式的发展,这其实是非常关键的。

  因此,你必须要持续投入精力在生态构建上,持续的打磨产品,以及建立各种合纵连横的商业模式,打造出生态的护城河,从而能够突出重围、穿越周期。

  钛媒体:AI 大模型算力背后最核心的是生态,相对于国外方案,燧原科技在国产算力生态当中面临哪些挑战?

  整条产业链其实是极其复杂的,它是 “一盘棋”。而对于技术生态来说,其实就是冲破原有生态的壁垒,找到国内的软硬件技术伙伴进行泛化,不断扩大。

  实际上,从硬件算力,到技术软件栈,再到整体部署开发,在 AI 领域,这一套东西其实就遇到很多挑战。

  第一个挑战是完备性问题。整套技术底座能够真正被开发者使用,因此,这里面很多软硬件模块需要开发、扩大,这是一个庞大的生态系统。面对千万计的开发者群体,你要加入的技术模块就很多,包括编译器、加速库、框架、分布式计算等一些专业词汇的模块,而每一个模块都需要大量的人力和外部的生态伙伴一起来打磨,从而最终形成一个成熟、高性能、高效的底座。

  第二个挑战是易用性问题。大模型算力工具最终是提供给开发者,他们好不好用、易不易用、能不能成为生产力工具才是最重要的。当然,易用性也不是一蹴而就的,但随着用户量越来越高,反馈越来越多,产品迭代越来越多,越来越符合用户的使用习惯,才能变得易用。

  第三个挑战是泛化性问题。在大模型之前,我们经历了计算机视觉(CV)、自然语言理解(NLP)、推荐和广告搜索等时期,AI 的泛化和基本面都是不断变动的。这是一个很长线的过程,这是它的难度所在。

  而对于一家本土AI 算力提供商来说,如何通过以点带线、以线带面打磨你的生态,一步步“泛化”到互联网、金融、医疗、智慧交通等领域。这其实是一个生态打磨的过程,我认为这个过程没有太多捷径可走

  同时,在数据中心产业生态层面,需要各种公有云和私有云,大模型厂商,以及集成部署运维运营商等生态伙伴齐心协力,才能够把智算中心持续发展下来。因此,找到一个可复制的生态打法至关重要,需要不断把生态“蛋糕”做大,形成商业模式的“闭环”。

  张亚林:我认为,每个人心中都有AGI,有些人可能认为它和人一样,有些人认为它是比人更高质量的一个智慧体。但是不管怎么说,就是我们如何去渐进式接近 AGI 这个定义。

  在我看来,AGI解决的一个终极问题是人的助手,或者是说如何更好的帮助人、解放生产力,以更好的方式进一步提升工作的质量和效率。

  整体来说,AI 还是一个增效的作用,因为到目前为止,我们还没有看到 AI 从增效到主导智能。

  如果再往GPT-5、GPT-6发展的话,我们看到大型智能体的通用智能性越来越强,也就是跟人的智慧越来越接近。如果说GPT-4是高中生水平的线可能到研究生或者博士生水平。

  AGI还是在一个正常的思考水平或者日常生活水平,需要基于一个人正常思维上进行判断,而不是在更高的洞察力、灵感甚至抽象思维层面去判断。所以,如果按正常人类思维判断的话,AGI这种主动型 AI 思维模式逐步增强,最终还是跟人成为相伴的一个助手。

  张亚林:整体来看,在Scaling Law法则下,我们确实在系统集约化上相对落后。第一,GPT-5的发布开始停滞了,是否能像摩尔定律一样不断发展,其实是一个问号;第二,完全通过Scaling Law进行 AI 训练,模型才是最有效方式,需要我们从更多元的方式进行发展。

  未来几年会比较有意思,因为全球都会面临能源制约、大模型系统复杂度越来越高、精准化模型和专家化模型发展等诸多问题的限制,所以在 AI 算力训练部署上会发生一些变化。而中国垂直行业分工是最细的,应用的智能化程度远超国外,因此以端侧场景和人的接受度来推演,一定会倒逼 AI 推理部署往边缘和端侧发展,由此国内 AI 算力通过云、边、端一体化方式快速发展,未必完全受限于云端算力。

  所以,未来中国如何更好的部署端侧、云端 AI 算力,如何发挥中国在通信网络分布式调度措施,如何让算力更加符合场景,如何聚焦大模型的精细化、行业落地以及云边端一体化,赋能基础网络,这些才是比较关键的。

搜索