网站导航

《人工智能：无尽的前沿》——人文讲坛张亚勤

　　若是按照如许的定义，我认为我们正在 15-20 年内会达到AGI的程度，而且可以或许通过 “新图灵测试”。图灵测试，一起头只是文本对话层面的测试，现正在它曾经延长到各个范畴了。起首正在消息范畴，正在内容生成方面，我感觉5年之内就能够达到AGI的程度，大师看最新的Sora视频生成模子，它生成的视频曾经和人类制做的差不多了，以至正在某些方面比人类做得还好。正在10年之内，正在物能方面能够实现AGI，无人车从手艺方面曾经根基过关了，人形机械人还需要更长的时间。我们现正在看到各类人形机械人的表演都很好，也有良多相关的研究，包罗人形机械人的工致手、人脸肌肉节制等手艺，但要做到实正和人类类似，至多还需要10年的时间。不外我很看好这个财产，我认为2030年，也就是十年当前，机械人的数量会跨越人类的数量，这会是一个庞大的财产。可是现正在，人形机械人还处于科研阶段，还没有到完全量产的境界。那么更主要的是生物智能范畴，好比脑机接口、生物体取AI的融合、生命体的数字化等，这个范畴要实现AGI，还需要差不多20年的时间。

　　晚年间，保罗・麦克莱恩提出了 “三沉脑” 理论，将大脑分为分歧条理：担任呼吸、睡眠、活动等心理功能的物理条理，处置感情的条理，以及担任推理、决策的高级条理。这个理论虽然不敷精准，但为我们理解大脑供给了曲不雅的视角。现在我们晓得，大脑具有一百五十多个分歧的功能区，860 亿个神经元分布此中，别离担任声音、视觉、活动等分歧功能。

　　2016年AlphaGo第一次击败了李世石九段，是以3！1的比分击败的。我们的同窗柯洁九段不服气，2017年和AlphaGo下了三盘棋，最终0！3屈居第二。AlphaGo当然很伶俐，它用到了深度进修、强化进修，还有蒙特卡洛搜刮，是很了不得的，它进修了人类几十万盘棋局。但我感觉更了不得的，是大师不太传闻的AlphaGo Zero。它完全不消进修人类的棋局，它是本人和本人下棋，互相博弈，通过不竭地博弈来进修，并且进化速度很是快。AlphaGo Zero和 AlphaGo的前一个版本下了 100 场棋，它完胜，比分是100！0。它不只能够下围棋，还能够下国际象棋以及此外棋类。所当前来DeepMind这个团队说，从此我们不和人类下棋了，由于所有的棋类，人类都下不外人工智能了。这是一个出格主要的概念，就是智能体的概念。

　　到了物理世界，我们把大模子、智能体和无人车、机械人、无人机，包罗军事系统毗连起来，智能体之间的协做和博弈，若是呈现失控，若是被恶意，那么形成的风险就会更大。到了生物智能范畴，假如我们的大脑和AI毗连正在一路了，碳基生命和硅基世界通过芯片或者外挂的传感器毗连正在一路了，到了阿谁时候，虽然它能够给我们带来庞大的益处，我们能够想象到，若是一旦呈现失控、被，风险就会出格大。所以这个范畴需要我们人类最伶俐的人去研究这些问题、处理这些问题、面临这些挑和。这里面有做科学研究的、手艺开辟的、产物设想的，同时也需要的政策律例专家一路，配合打制一个无效的管理框架，并且这个管理框架需如果全球范畴的。但我本人是有决心的，人类进化了这么多年，我们有一个特殊的能力，就是能够发现高级的东西，同时我们也能够办理好高级的东西。

　　人工智能，素质上是进修人类智能的过程，多年来我们一曲正在探索智能的素质。“人工智能”（Artificial Intelligence）这一概念于 1956 年正式定义，而它的理论奠定可逃溯到更早——图灵率先定义了 “计较” 取 “智能”，并提出了 “图灵测试”：若机械能通过多轮对话，让人类无法分辩其能否为人类，就意味着通过了测试。

　　ChatGPT素质上是言语模子，而物理世界的智能体需要具备视觉（Vision）、言语（Language）、步履（Action）能力，建立 “世界模子”。AIR的曹婷教员团队研发的系统，就实现了物理世界机械人智能体的焦点功能——通过、推理、进化、步履和励机制，生成决策和动做，批示机械人完成使命。

　　第三点就是泛化能力，可以或许触类旁通。好比说我学会怎样去订票，这些功能、技术能够用到此外处所，它能够帮你去报销，能够帮你去购物，我也但愿它当前能够帮你开车，当然开车这个使命就很难了。可泛化性是我们人类的特点，可是我们人类的可泛化能力也是有一些边界的。但文科可能相对差一点；我有一个出格好的伴侣，他出格伶俐，工做也做得很棒，但学开车拿驾驶执照花了15年还没拿到，最初拿到执照之后顿时就撞车了。所以有些处所，人类的泛化能力也会受限，但我们仍是但愿人工智能可以或许具备触类旁通的泛化能力。

　　DeepSeek呈现之前，我已经说过，我们和美国正在大模子范畴的差距，大要是两到三年。DeepSeek是一家小小的创业公司，它的工程团队离可能就 5-10 分钟的程，团队里良多都是的学生。DeepSeek所做的，是一条新的径，正在算法、手艺、系统架构上都有立异，它用1%的算力就能够达到和美国前沿大模子类似的能力。DeepSeek出来之后，我们和美国的差距可能就缩短到2-3个月，也就是一个版本的差距，从之前的2-3年缩短到 2-3个月，并且正在有些使用方面，我们可能做得更好。别的它采用开源模式，它的开源模子很快就被良多买不起大模子的国度、地域所利用，这使得整个模子的落地和使用变得越来越快。所以我把它叫做“DeepSeek时辰”，一起头有“ChatGPT时辰”，现正在这是“DeepSeek时辰”，是属于中国的时辰。

　　五年前，2020年12月，我来到大学创立了智能财产研究院（AI Industry Research，简称AIR）。AIR的“I”有三沉寄义：国际化（International）、人工智能（AI）、财产（Industry）。我们的清晰明白：用人工智能立异赋能财产，智能化、财产化研究机构。

　　AIR的兰艳艳教员团队研发了新药筛选新手艺，通过AlphaFold解码2万多个卵白质布局，找到“口袋靶点”，再取几十亿、上百亿个卵白质进行对接。目前仅有不到10%的卵白质可用于制药，大量卵白质布局的使用价值尚未被挖掘，而该手艺通过人工智能算法实现了快速对接，相关即将正在《科学》颁发。

　　AIR教员团队取大学丘成桐先生的数学研究院合做，研发了数学智能体AIM。它可以或许分化使命，完成证明。例如正在材料科学、动力学范畴的主要难题“平均化问题”的证明中，AIM构成了17页的证档，此中绿色部门完全由机械生成，橙色部门次要由机械证明后经人工校正，蓝色部门为人工完成，黑色部门是问题描述。这是人机协做的绝佳典范，据数学教员反馈，证明中最难的部门由AI完成。

　　人工智能正在医疗范畴的另一冲破，是AIR刘洋教员团队打制的全球首个无人智能体病院——大学人工智能病院（本年4月成立）。这是一个虚拟病院，大夫、病人、等脚色均由智能体担任，涵盖分歧科室，构成完整诊疗闭环。智能体之间通过协做、博弈不竭进化，无需人工标注数据，仅需两天时间就能完成相当于两年的病例诊断进修，诊断精确率跨越保守病院。

　　张亚勤院士，大学智能财产研究院（AIR）创始院长。曾任百度总裁、微软全球资深副总裁兼微软亚太研发集团、微软亚洲研究院院长兼首席科学家等职。

　　光阴回到 80 年前，1945 年二和方才竣事，时任美国总统罗斯福正在一个深冬的晚上收到了一份提案，名为《科学：无尽的前沿》。这份提案后来成为法案，一举奠基了美国正在科学范畴的领军地位，催生了浩繁手艺、产物和财产，间接鞭策了第三次工业——我们熟知的无线通信、半导体、互联网、光纤通信等，都是源于这份科案。而今天，我们正送来一个全新的严沉机缘——人工智能，它已然拉开了第四次工业的序幕。所以我今天的标题问题是《人工智能：无尽的前沿》。

　　虽然目前AIM证明的问题仍有必然难度，但我相信将来五年，人工智能可以或许证明更难的数学问题——好比千禧年提出的7个最难数学问题（目前已有2个被处理，残剩 5个包罗计较机范畴的NP完整性问题、哥德猜想、黎曼猜想等）。我取丘成桐先生就此“赌博”，我认为五年内AI能完成此中至多一个难题的证明。无论具体时间若何。

　　什么是智能体？人类做为高智能，可以或许设定使命和方针、规划实现径、不竭试错反馈，凭仗强大的回忆完成使命。比好像窗们想学人工智能，会想学人工智能我要上哪个教员的课，哪个教员讲得最好，我要找什么参考书，我要怎样预备测验，做什么题，会把这个方针分化，然后找到最佳的实现径，而AI智能体，就是正在进修人类这种高级智能，具备三大环节能力。

　　别的一个角度看我们的财产成长，是从互联网的成长脉络来看。1995年了PC互联网时代，2005 年了挪动互联网时代，2015年了物联网时代，也就是互联的时代。现正在我认为，我们进入了一个新的时代，就是智能体互联网时代，也就是Internet of Agents。这里面有一个出格成心思的概念，叫做Agent Swarm（智能体群）。

　　2025 年，人工智能范畴送来了又一主要改变——从生成式AI迈向智能体AI。正在此之前，我们遵照“规模定律”：数据越多、算力越强，模子结果越好，达到必然阶段后会呈现量子跃迁和出现效应。但2025年我们发觉，预锻炼阶段的规模效应正正在放缓，数据资本逐步趋于饱和，继续添加算力的边际收益不竭削减。取之相对，后锻炼（Post-train）阶段的主要性日益凸显。这就像人类的成长：预锻炼好像上学阶段，从本科到硕士、博士，通过进修堆集学问变得伶俐；尔后锻炼则像是工做后的实践，正在具体场景中不竭进修、进化，这也是智能体AI 的焦点来历。

　　从生成式人工智能（AIGC）到智能体AI（Agentic AI），AI成长正派历深刻的范式改变。12月5日晚，，正在人文讲坛颁发题为《人工智能：无尽的前沿》的，他指出 AI做为焦点驱动力，正以史无前例的速度沉构出产力取出产关系，并鞭策物理世界、数字世界甚至生物世界的深度融合。

　　2023年3月，我绘制了人工智能时代的架构图：以前沿基座大模子为操做系统，上层涵盖行业垂曲系统、SaaS 使用软件，端侧（手机、PC）则通过大模子蒸馏或压缩后的小模子运转 APP。到 2025年10月，我对这一架构进行了更新，焦点变化是将SaaS和APP替代为智能体——我认为智能体是将来的SaaS，也是将来的APP。虽然短期内手机APP仍是支流，但智能体功能将逐渐融入此中。

　　下面我想讲一下将来手艺的成长趋向，出格是财产款式的变化。我正在微软公司工做近16年，期间掌管开辟了全球最大的嵌入式操做系统WindowsCE，所以我对操做系统有一个特殊的情结。操做系统，它是定义一个时代最主要的手艺平台，有了操做系统之后，下面的芯片，的使用法式，整个手艺生态其实都是环绕着操做系统来摆设的。正在 PC 时代，我们晓得操做系统是Windows（视窗操做系统），芯片是X86架构，环绕着这个平台开辟了各类各样的使用法式。到了挪动互联网时代，我们用的手机操做系统是iOS和，正在国内我们也用华为的鸿蒙系统。下面的芯片也变了，变成了ARM架构，的使用也变了，有各类分歧的挪动使用，像微信、短视频等各类使用。到了人工智能时代，大模子就是人工智能时代的操做系统。环绕着这个操做系统，下面的芯片架构变成了以GPU为支流，NVIDIA（英伟达）为什么全球市值这么高？由于它次要就是做GPU的。的芯片架构变了，下面的使用生态也变了，此次人工智能时代的手艺规模，比挪动互联网时代、比 PC 时代要大良多倍，可能会达到一个数量级、两个数量级，以至更大的规模。

　　这个风险有几个层面：起首是消息智能范畴的风险，我们曾经看到了，它能够生成虚假消息，它能够进行深度伪制，有的时候它还会发生，还能够用来他人，别的还有版权归属的问题。我们现正在利用的互联网消息，从上个月起头，曾经有 50% 以上的消息是人工智能所发生的。这个时候我们怎样防备这些风险？好比现正在有良多不实的消息，这些不实消息又被用来锻炼新的大模子，然后生成更多的不实消息，构成恶性轮回。我们怎样处理这些问题？需要从手艺、政策、律例方面配合勤奋来处理这些问题，不外这个范畴的风险我认为仍是可控的。

　　无人驾驶是物能体的另一主要使用，也是我多年来持续关心的课题。此前正在百度担任总裁期间，我们启动了“阿波罗”项目，其落地使用“萝卜快跑”就是一款特地用于驾驶的机械人。无人驾驶的难度极高，需要车辆精准复杂交通、规划径、做出及时平安的决策，集成了人工智能的各个焦点手艺，因而被称为“人工智能集大成者”。

　　詹仙园教员团队研发的X-VLA系统，测验考试处理智能体的泛化问题。保守机械人学会一项技术后，而X-VLA 系统仅需9亿个参数，就能摆设到分歧机械臂和机械人上，实现技术的跨设备、跨场景迁徙。好比机械臂学会叠衣服后，改换分歧机械臂、调整桌子高度，仍能完成叠衣服使命，还能将相关技术迁徙到做家务等其他场景，完全通过自从进修顺应。

　　这么多年来，人工智能范畴呈现了良多分歧的学派，但全体分一下，次要是两种分歧的思。一种思认为，能够把大脑的逻辑、法则，还有推理的过程都用符号暗示出来，这就是符号学派。基于这种体例，逻辑系统很标致、很简练，也有明白的关系，具备通明性，我们晓得机械是怎样推理的，但它独一的错误谬误就是不适用，正在现实使用中结果欠安。当然还有别的一个学派，叫毗连学派。这个学派认为，大脑如斯复杂，智能的实现好不容易，所以要通过大量的数据，通过堆集经验、持续进修、不竭顺应，以及取世界的毗连来获取智能，这就是毗连从义。比来10-20年支流的深度进修手艺，用的就是如许的方式。

　　别的一个大的里程碑，是2022年，也就是三年前，同样是一个很冷的冬天，OpenAI的ChatGPT呈现了，这带来了一个全新的范式。过去的深度进修或者神经元收集，次要仍是针对具体使命，素质上是一种很伶俐的模式识别，好比说语音识别、人脸识别、图像识别，或者字符识别等，算是一种高级的识别手艺。但ChatGPT出来之后，我们腾跃到了一个新的范式，它不只能够识别，还能够生成，还能够创制，所以生成式AI就这么呈现了。

　　当前，人工智能正从辨别式AI生成式AI，并逐渐迈向智能体AI。新一轮人工智能是消息智能、物能和生物智能的融合，是原子、比特和的融合，是碳基生命和硅基世界的融合。正在这一历程中，我们具有天文级海量数据、指数级运算能力，更主要的是人取机械将协同进化，催生庞大的财产机缘——达沃斯AI理事会预测，到 2030 年，人工智能带来的新机缘将创制20万亿美元的经济价值，跨越当前很多国度的P总量。同时，我们也面对着现私、平安保障、就业转型、社会公允、风险管理等一系列社会挑和。

　　这些智能的实现，离不开最根基的工具，其实就是数据，数据的素质就是数字化，我们的手艺底座就是数字化。起首是消息世界的数字化，然后是物理世界的数字化、生物世界的数字化。过去40年，我们最主要的工做就是数字化。晚期从1985年起头，我们进行内容数字化、文档数字化，我们的语音、图像、视频、文本、PPT等，这些都是正在阿谁时候变成数字化内容的。后来加上HTML等手艺，取得了一个严沉，就是互联网，先是 PC 互联网，后来是挪动互联网。然后我们又对企业进行数字化，或者说对企业进行消息化，这里面有ERP系统、CRM系统、数据库等，还有企业各类各样的营业流程。这一阶段催生了两个最大的，一个是数据库，别的一个是云计较。那么现正在，我们的物理世界正正在被数字化，汽车、公、交通灯、城市正在数字化，我们的电网正在数字化，我们的家庭正在数字化，我们的车间正在数字化，我们的工场正在数字化。。。。。。整个物理世界都正在履历数字化的变化。同时，我们生物世界的卵白质、大脑、细胞、基因等等也都正在被数字化。

　　生成式AI有三个主要的元素，同一表征（Tokenization）、规模定律（Scaling Law）和出现效应(Emergence)。最主要的，我认为是同一表征。ChatGPT是怎样做的呢？有点像人类的神经元，我们人类有860亿个神经元，不管分布正在什么处所，每个神经元的布局都是完全一样的，视觉的、听觉的、活动的、回忆相关的，都是同样的布局。生成式AI的同一表征也是雷同的事理，不管什么样的信号进来，都把它变成Token，焦点使命就是预测下一个Token，生成下一个Token。它能够生成文字、图像、视频，现正在大师曾经用得良多了。同时它还能够生成新的数据、代码、数学方程式、东西——它不只能生成东西，还能利用东西；它还能够生成新的卵白质、、材料、药物。当狂言语模子的参数量冲破百亿级别，便会触发规模定律，呈现出现效应。也就是说，模子的机能并非线性增加，而是跟着规模扩大发生跃迁，从而出现出未经编程的、令人欣喜的新能力。

　　里面最伶俐的是什么？是人。颠末几十万年的进化，我们的大脑是如斯奥秘和奇异。我们的大脑不到 3 斤沉，功耗只要 20 瓦，可是我们却如斯之伶俐。它里面包含了 860 亿个神经元，有百万亿个毗连或者说突触，存储量至多有1个 Petabyte。我们人类对大脑的理解也是渐进的，现正在我们可能对大脑的理解还不跨越10%。很成心思的是，我们有两个最奥秘的工具，一个是我们的，我们对的领会不到5%，95%以上都是暗物质、暗能量；另一个就是我们人类的大脑，我们对它的领会也很少。但这么多年来，跟着研究的深切，我们越来越多地晓得了它的一些布局、功能。

发布于 : 2026-06-05 20:29

《人工智能：无尽的前沿》——人文讲坛张亚勤

联系我们

关于我们

产品中心