2025年4月初,斯坦福大学人类中心人工智能研究所(HAI)一年一度的发布了《人工智能指数报告2025》,这是本报告的第八版,旨在提供关于人工智能(AI)发展现状的权威数据和分析。报告涵盖了AI在研究与开发、技术性能、负责任AI、经济影响、科学与医学应用、政策与治理、教育以及公众舆论等多个方面的最新进展。 1.人工智能(AI)在要求苛刻的基准测试中的表现持续提高 2023年,研究人员引入了新的基准测试——MMMU、GPQA和SWE-bench,以测试先进人工智能系统的极限。仅仅一年后,性能就大幅提升:在MMMU、GPQA和SWE-bench上的得分分别提高了18.8、48.9和67.3个百分点。除了基准测试外,人工智能系统在生成高质量视频方面取得了重大进展,在某些设置下,语言模型代理甚至在时间预算有限的情况下,在编程任务中超越了人类。 2.人工智能越来越多地融入日常生活 从医疗保健到交通运输,人工智能正迅速从实验室走向日常生活。2023年,美国食品药品监督管理局(FDA)批准了223种人工智能医疗设备,而2015年仅有6种。在道路上,自动驾驶汽车已不再是试验品:美国最大的运营商之一Waymo每周提供超过15万次自动驾驶出行服务,而百度价格实惠的Apollo Go自动驾驶出租车队现已服务于中国众多城市。 3.企业全力投入人工智能,推动投资和使用量创下纪录,同时研究持续显示其对生产力有显著影响 2024年,美国私人人工智能投资增长至1091亿美元——几乎是中国的93亿美元的12倍,是英国的45亿美元的24倍。生成式人工智能(Generative AI)增长势头尤为强劲,吸引了全球339亿美元的私人投资——比2023年增长了18.7%。人工智能在企业中的应用也在加速:2024年,78%的组织报告使用了人工智能,而前一年这一比例为55%。与此同时,越来越多的研究证实,人工智能提高了生产力,并且在大多数情况下,有助于缩小整个劳动力队伍的技能差距。 4.美国在顶级人工智能模型的生产方面仍领先,但中国正在缩小性能差距 2024年,美国机构生产了40个知名人工智能模型,远远超过中国的15个和欧洲的3个。虽然美国在数量上保持领先,但中国模型已迅速缩小了质量差距:在MMLU和HumanEval等主要基准测试中的性能差异从2023年的两位数缩小到2024年的接近持平。与此同时,中国在人工智能出版物和专利方面继续领先。与此同时,模型开发日益全球化,中东、拉丁美洲和东南亚等地区也推出了重要模型。 5.负责任的人工智能生态系统在发展——但并不均衡 与人工智能相关的事件急剧上升,但在主要工业模型开发商中,标准化的人工智能责任评估(RAI)仍然罕见。然而,新的基准测试如HELM Safety、AIR-Bench和FACTS为评估事实性和安全性提供了有前景的工具。在公司层面,认识到人工智能责任风险与采取有意义行动之间仍存在差距。相比之下,政府正表现出更大的紧迫性:2024年,全球人工智能治理合作加强,经合组织(OECD)、欧盟(EU)、联合国(UN)和非洲联盟(African Union)等组织发布了以透明度、可信度和其他核心负责任人工智能原则为重点的框架。 6.全球对人工智能的乐观情绪正在上升——但地区分歧依然存在 在中国(83%)、印度尼西亚(80%)和泰国(77%)等国家,绝大多数人认为人工智能产品和服务利大于弊。相比之下,在加拿大(40%)、美国(39%)和荷兰(36%)等地,乐观情绪仍然要低得多。尽管如此,公众情绪正在发生变化:自2022年以来,乐观情绪在多个此前持怀疑态度的国家显著增长——包括德国(+10%)、法国(+10%)、加拿大(+8%)、英国(+8%)和美国(+4%)。 7.人工智能变得更加高效、经济实惠且易于获取 在功能日益强大的小型模型的推动下,性能达到GPT-3.5水平的系统的推理成本在2022年11月至2024年10月期间下降了280多倍。在硬件层面,成本每年下降30%,而能效每年提高40%。开源模型也在缩小与闭源模型的差距,在某些基准测试中,性能差距在一年内从8%缩小到仅1.7%。这些趋势共同降低了先进人工智能的门槛。 8.政府正在加强人工智能方面的行动——通过监管和投资 2024年,美国联邦机构推出了59项与人工智能相关的法规——是2023年的两倍多,且出台法规的机构数量也增加了一倍。在全球范围内,自2023年以来,75个国家立法中对人工智能的提及增加了21.3%,自2016年以来增长了九倍。随着关注度的不断提高,政府正在大规模投资:加拿大承诺投入24亿美元,中国推出了475亿美元的半导体基金,法国承诺投入1090亿欧元,印度承诺投入12.5亿美元,沙特阿拉伯的“超越计划”(Project Transcendence)代表了一项1000亿美元的倡议。 9.人工智能和计算机科学教育正在扩大——但在获取途径和准备程度方面仍存在差距 三分之二的国家现在提供或计划提供K-12计算机科学(CS)教育——是2019年的两倍,其中非洲和拉丁美洲取得的进展最大。在美国,过去10年中计算机专业本科毕业生人数增加了22%。然而,由于电力等基础设施存在基本差距,许多非洲国家的获取途径仍然有限。在美国,81%的K-12计算机科学教师表示人工智能应成为基础计算机科学教育的一部分,但只有不到一半的教师觉得自己有能力教授它。 10.行业在人工智能领域正加速前进——但前沿领域正在收紧 2024年,近90%的知名人工智能模型来自行业,而2023年这一比例为60%,而学术界仍然是高被引研究的首要来源。模型规模继续快速增长——训练计算量每五个月翻一番,数据集每八个月翻一番,能耗每年增加。然而,性能差距正在缩小:排名第一和第十的模型之间的得分差距在一年内从11.9%缩小到5.4%,而排名前两位的模型之间的差距现在仅为0.7%。前沿领域竞争日益激烈——且日益拥挤。 11.人工智能因其对科学的影响而获得最高荣誉 人工智能日益增长的重要性在重大科学奖项中得到了体现:两项诺贝尔奖表彰了深度学习(物理学)及其在蛋白质折叠(化学)中的应用,而图灵奖则表彰了对强化学习的开创性贡献。 12.复杂推理仍然是一个挑战 人工智能模型在国际数学奥林匹克竞赛等问题上表现出色,但在PlanBench等复杂推理基准测试中仍面临挑战。即使存在可证明的正确解决方案,它们也常常无法可靠地解决逻辑任务,从而限制了它们在精度至关重要的高风险环境中的有效性。 在负责任AI一章,有如下发现: 用负责任的人工智能标准评估人工智能系统仍不常见,但新的基准正在开始出现。去年的《人工智能指数》强调了缺乏用于评估大语言模型的标准化负责任的人工智能基准。虽然这个问题依然存在,但诸如 HELM 安全基准(HELM Safety)和 AIR 基准(AIR-Bench)等新基准有助于填补这一空白。 人工智能事故报告数量持续增加。根据人工智能事故数据库(AI Incidents Database)的数据,2024 年报告的人工智能相关事故数量增至 233 起,创下历史新高,比 2023 年增长了 56.4%。 各组织认识到负责任的人工智能相关风险,但缓解措施滞后。麦肯锡(McKinsey)关于各组织对负责任的人工智能参与情况的一项调查显示,虽然许多组织识别出了关键的负责任的人工智能风险,但并非所有组织都在积极采取措施应对这些风险。不准确、监管合规和网络安全等风险是领导者们最关注的问题,分别只有 64%、63% 和 60% 的受访者表示担忧。 全球政策制定者对负责任的人工智能表现出浓厚兴趣。2024 年,全球在人工智能治理方面的合作加强,重点在于阐明负责任的人工智能的共识性原则。包括经济合作与发展组织(OECD)、欧盟、联合国和非洲联盟在内的几个主要组织发布了框架,阐明了对负责任的人工智能的关键关注点,如透明度、可解释性和可信度。 数据共享空间正在迅速缩小。人工智能模型依赖大量公开的网络数据进行训练。最近的一项研究发现,从 2023 年到 2024 年,数据使用限制显著增加,因为许多网站实施了新的协议来限制用于人工智能训练的数据抓取。在 C4 通用网络爬虫数据集(C4 common crawl dataset)中活跃维护的域名中,受限令牌的比例从 5 - 7% 跃升至 20 - 33%。这种下降对数据多样性、模型校准和可扩展性产生了影响,也可能促使人们探索在数据受限情况下的新学习方法。 基础模型研究的透明度有所提高,但仍有更多工作要做。更新后的基础模型透明度指数(Foundation Model Transparency Index)—— 一个跟踪基础模型生态系统透明度的项目 —— 显示,主要模型开发者的平均透明度得分从 2023 年 10 月的 37% 提高到了 2024 年 5 月的 58%。虽然这些进展很有前景,但仍有很大的改进空间。 事实性和真实性方面有了更好的基准。早期旨在评估人工智能模型事实性和真实性的基准,如 HaluEval 和 TruthfulQA,未能在人工智能社区中广泛应用。作为回应,出现了更新的、更全面的评估,如更新后的休斯幻觉评估模型排行榜(Hughes Hallucination Evaluation Model leaderboard)、FACTS 和 SimpleQA。 与人工智能相关的选举虚假信息在全球传播,但其影响尚不清楚。2024 年,在十几个国家和 10 多个社交媒体平台上出现了大量与人工智能相关的选举虚假信息案例,包括在美国总统选举期间。然而,关于这个问题的可衡量影响仍存在疑问,许多人原本预计虚假信息活动对选举的影响会比实际情况更深远。 经过训练以消除显性偏差的大语言模型仍表现出隐性偏差。包括 GPT-4 和 Claude 3 Sonnet 在内的许多先进大语言模型在设计时采取了抑制显性偏差的措施,但它们仍然存在隐性偏差。这些模型将负面词汇与黑人个体更多地联系在一起,更常将女性与人文领域而非 STEM 领域联系起来,并且在领导角色方面更倾向于男性,从而在决策过程中强化了种族和性别偏见。尽管在标准基准测试中偏差指标有所改善,但人工智能模型偏差仍然是一个普遍存在的问题。 负责任的人工智能受到学术研究人员的关注。在主要人工智能会议上接受的负责任的人工智能相关论文数量从 2023 年的 992 篇增加到 2024 年的 1278 篇,增长了 28.8%,延续了自 2019 年以来的稳步年度增长趋势。这一上升趋势凸显了负责任的人工智能在人工智能研究界日益增长的重要性。? 在政策与治理一章,有如下主要发现: 美国各州引领人工智能立法潮流,联邦层面进展缓慢:2016 年,美国仅有一项州级人工智能相关法律通过,到 2023 年这一数字增至 49 项。仅在过去一年,该数字就翻了一倍多,达到 131 项。虽然联邦层面提出的人工智能法案数量也在增加,但通过的数量仍然较少。 各国政府纷纷投资人工智能基础设施:加拿大宣布了一项 24 亿美元的人工智能基础设施计划;中国设立了规模达 475 亿美元的基金以推动半导体生产;法国为人工智能基础设施投入 1090 亿欧元;印度承诺投资 12.5 亿美元;沙特阿拉伯的 “超越计划”(Project Transcendence)是一项规模达 1000 亿美元的人工智能投资倡议。 全球立法程序中对人工智能的提及持续增加:在 75 个主要国家中,2024 年立法程序中对人工智能的提及次数从 2023 年的 1557 次增加到 1889 次,增长了 21.3%。自 2016 年以来,人工智能提及的总次数增长了超过 9 倍。 人工智能安全机构在全球范围内扩展并加强协作:2024 年,多个国家纷纷成立国际人工智能安全机构。2023 年 11 月,美国和英国在首届人工智能安全峰会后率先成立了相关机构。2024 年 5 月,在首尔人工智能峰会(AI Seoul Summit)上,日本、法国、德国、意大利、新加坡、韩国、澳大利亚、加拿大和欧盟等国家和地区也宣布成立或计划成立人工智能安全机构,并签署了建立合作网络的意向书,凸显了全球在推进人工智能安全方面合作的重要性。 美国人工智能相关联邦法规数量激增:2024 年,美国出台了 59 项人工智能相关法规,是 2023 年(25 项)的两倍多。这些法规来自 42 个不同的机构,是 2023 年(21 个)的两倍。 美国各州扩大对深度伪造技术的监管:在 2024 年之前,只有加利福尼亚州、密歇根州、华盛顿州、得克萨斯州和明尼苏达州这 5 个州制定了监管选举中深度伪造技术的法律。2024 年,又有 15 个州,包括俄勒冈州、新墨西哥州和纽约州等,出台了类似措施。到 2024 年,共有 24 个州通过了针对深度伪造技术的法规。