4月13日,斯坦福大学以人为本人工智能研究所(Stanford HAI)发布《2026年AI指数报告》,全文长达423页。该报告自2017年起每年发布,已成为追踪人工智能行业发展最全面的年度文献。

报告显示,中美AI模型性能差距大幅缩小。截至2026年3月,美国顶级AI公司Anthropic最先进的模型仅领先中国最强竞争对手2.7个百分点。2025年2月DeepSeek发布的R1模型曾短暂追平美国模型,此后双方进入高频性能更迭期。从产出数量看,美国在2025年发布了50个值得注意的顶级模型,中国发布30个。报告特别提醒,账面数字极大低估中国真实投入,自2000年以来中国政府引导基金向AI公司注入资金累计约1840亿美元。中国在AI出版物数量、论文引用份额及专利授权量上已居全球第一,2024年安装工业机器人29.5万台,远超其他国家。

美国虽在AI研究人员和开发者数量上远超其他国家,但专家流入速度急剧放缓。自2017年以来,移居美国的AI学者数量下降89%,过去一年下降80%。

美国在数据中心领域保持领先,拥有5427个数据中心,中国为449个。截至2025年底,AI数据中心总电力容量达29.6吉瓦,约等于纽约州峰值用电需求。英伟达GPU占全球AI总计算能力60%以上。

数据中心扩张伴随显著环境成本。训练xAI的Grok 4模型产生约72816吨二氧化碳当量,高于约1000辆普通汽车整个生命周期碳排放。GPT-4o推理年用水量估算超过1200万人饮用水需求。过去两年,因地方反对,价值640亿美元的美国数据中心项目被搁置或延迟,24个州至少142个活动团体参与组织。

过去十年AI模型性能提升呈加速趋势。AI智能体进化速度最为显著,OSWorld基准和SWE-Bench Verified基准得分曲线均呈现最陡峭走势。在“人类终极考试”基准上,2025年排名最高的OpenAI o1模型仅正确回答8.8%的问题,截至2026年4月,Anthropic Claude Opus 4.6和谷歌Gemini 3.1 Pro已超过50%。

但AI模型在部分常见任务上表现较差。ClockBench测试多模态大语言模型读取模拟时钟的能力,表现最佳的OpenAI GPT-5.4准确率仅为50%,Anthropic Claude Opus 4.6准确率仅8.9%。机器人在折叠衣物或洗碗等真实家务中成功率仅12%。

医学领域AI应用取得进展。过去两年,关于AI用于药物发现的出版物数量增加一倍以上,多模态生物医学AI出版物数量为两年前2.7倍。从患者就诊中自动生成临床记录的工具在2025年得到广泛采用,医生撰写笔记时间减少高达83%。但一项对500多项临床AI研究的回顾发现,近一半研究依赖考试式问题而非真实患者数据,仅5%研究使用真实临床数据。

聚焦具体任务,AI带来可测量效率提升。客户支持智能体每小时解决问题增加近15%,使用GitHub Copilot的软件开发人员完成的拉取请求增加26%,使用AI进行广告创作的营销团队人均产出跃升50%。2025年美国生产率增长率为2.7%,约为前十年平均水平的两倍。但宾夕法尼亚大学沃顿预算模型测算,AI对全要素生产率的实际贡献仅0.01个百分点,接近为零。报告同时指出,对于需要更深层次推理的任务,AI工具反而降低人工效率,使用AI辅助的开源开发者速度降低19%。

劳动力数据显示明确代际差异。到2025年9月,美国22至25岁软件开发者就业人数较2022年峰值下降近20%,而年长开发者数量持续增长。(腾讯科技)