革新科技 来源:不详 日期:2026/2/28 13:35:48 阅读:68 次 |
|
2026年2月,英伟达发布2026财年Q4财报:营收681亿美元,同比增长73%,数据中心业务增长75%——预期中的超预期。更值得关注的,是电话会中反复出现的几个关键词:Agentic AI、推理需求、低延迟。英伟达明确判断:Agentic AI已达到实用拐点,算力已经具备盈利性,推理延迟成为AI基础设施的竞争焦点。 ▼ Agentic AI改变了什么? Agentic AI的概念并不新鲜——让AI像人类一样自主规划、调用工具、完成任务,业界已经期待了很多年。但期待是一回事,愿意付费是另一回事。企业一直有一个疑问:它到底能做到什么程度?有没有用户愿意付费?值不值得我花钱? 英伟达(黄仁勋)认为Agentic AI已达到实用拐点,并且将年初火热的可本地化部署AI代理工具OpenClaw与Anthropic的Claude Cowork一同作为该拐点到来的市场印证。 技术上,AI已经可以主动监控任务状态,自己调用工具、完成任务,无需人工催促。 业务上,付费模式也已经跑通,美国AI客服独角兽Sierra推行“按效果付费”——AI成功解决问题才收费,转人工则免费,成立18个月估值达100亿美元。国内也一样,蚂蚁数科、众数信科等纷纷试点RaaS(效果即服务)模式。众数信科与客户在招采场景达成阶梯式效果付费——按AI处理的案件数量及准确率分段计费。IDC预测,到2028年,70%的软件供应商将转向按业务结果、交易量或自动化成果计费。 技术突破和商业模式的跑通,将进一步加速企业竞争。过去,推理延迟可能够用就行。现在,推理延迟就是用户体验,就是用户留存和订单转化。毕竟一个智能客服如果反应迟缓,用户可能直接挂断;一个实时翻译如果延迟波动,对话就会卡顿;一个自动驾驶决策如果慢了几毫秒,可能就是事故。 这就引出了英伟达的第二个观点,推理延迟成为AI基础设施的竞争焦点。 ▼ Agentic AI如何改变推理需求? 会议另一细节也引起了行业关注:英伟达收购了Groq。Groq的核心技术LPU最显著的特点是确定性低延迟——通过静态调度和软件定义硬件,避免传统GPU的指令调度开销。这恰恰是GPU架构的先天短板:为了通用性,GPU必须保留复杂的调度逻辑,导致延迟存在波动。 这已经不是英伟达第一次引入外部技术完善生态,弥补延迟短板。早在2023年,英伟达就与Lattice合作将FPGA集成到Jeston Orin和IGX Orin平台中。 FPGA端到端推理延迟可稳定在1ms以下,关键路径甚至可达纳秒级。对于高频交易、工业控制、自动驾驶、电子医疗等场景,这是不可替代的优势。 与LPU不同,它还更加灵活,因为它能编程、可定制。如今算法迭代速度非常快,FPGA可随时重新配置硬件逻辑,升级算法,还能实现同一片FPGA验证不同功能。 FPGA的另一优势是低功耗,它能针对特定模型定制数据通路,消除冗余计算。同性能下,功耗可降至GPU的1/3到1/2。在功耗受限的边缘场景,这往往是能不能部署的决定性因素。同时,低功耗意味着更高的能效比,在规模化的行业客户面前,能效比的差异会被放大成真金白银的竞争力。 ▼ 总结 英伟达电话会释放的信号是明确的,Agentic AI正在引爆推理需求,算力投资将持续增长。 但同样明确的是:推理需求是多样化的,没有一种架构能通吃所有场景。GPU在高吞吐场景中无可争议地占据主导,但低延迟、高能效、可定制的场景,正是FPGA的用武之地。 对行业客户而言,不是二选一,而是如何组合。异构计算——GPU+FPGA协同工作,成为越来越多务实客户的选择。 |