对话Kimi付强:别把模型当宠物圈养,追逐AGI就要让模型与人类共同演化
日期:2025-10-05 20:37:55 / 人气:22
在今年AI创造者嘉年华期间,硅星人创始人兼CEO骆轶航与月之暗面(Kimi)技术副总裁付强,就K2模型诞生背后的“反常识”决策、Kimi追逐AGI的路径等核心议题展开深度对话。以下为经整理的对话实录及核心观点分析,呈现大模型技术发展的新思考。
一、重返预训练:反潮流背后的“Token效率”突破
1. 架构选择:不纠结“标新立异”,聚焦“好用”本质
针对K2模型采用与DeepSeekV3相似架构的疑问,付强表示,架构并非大模型竞争的核心——“汽车都长四个轮子,比拼的不是造五个轮子的车,而是车好不好开”。选择成熟架构的关键优势在于可重用既有推理资源,尤其K2定位为开源模型,需兼顾性能与部署效率。尽管架构相似,但K2在超参数(如MoE专家数量更多、注意力头数减半)、数据集选择、第一层dense模型紧致度等细节上进行优化,最终表现因这些差异而显著不同。
2. 反趋势决策:预训练仍有空间,拒绝“训练次数崇拜”
当行业趋势转向后训练、强化学习以逼近Agent时,Kimi却暂停K1.5的RL流程,重返预训练,这一“反潮流”举动源于对Scaling Law的重新判断。付强指出,行业中“Scaling Law到头了”的观点需辩证看待,预训练的瓶颈并非“投入不足”,而是“如何从有限数据中挖掘更多价值”。他反对“训练成本越低、次数越多越好”的简单逻辑——互联网高质量语料总量有限,若模型已学完所有公开知识,重复训练无法提升智能。Kimi的突破方向是提升“Token Efficiency(Token使用效率)”,让模型从同一段文本中挖掘更深层信息。
3. 智能提升路径:从“背书”到“举一反三”
付强以“7+5=12”举例说明Token Efficiency的实现逻辑:传统训练是“背书式”记忆等式本身,而高效训练需让模型理解等式背后的关联(如转化为12-7=5,掌握加减互逆关系)。类比到文本学习,模型需从Token中挖掘隐含信息——如诗句背后的历史背景、文字演化中的漏记与抄错,通过多维度比对和演化分析,实现“读10万字书,学出20万字内容”的效果。他认为,提升Token Efficiency至少能将Scaling Law“撞墙”时间推迟半年到一年,是当前预训练的核心突破点。
二、开源战略:让社区成为“共同演化”的推动力
1. 开源价值:小团队的“借力进化”逻辑
作为规模小于美国头部AI公司的团队,Kimi选择开源的核心诉求是构建“社区反馈-模型迭代”的循环。付强表示,开源能让开发者基于K2打造多样化应用,这些应用场景和用户反馈会启发Kimi的下一代模型研发方向。“我们欢迎社区做出更酷炫的产品,只要始终比社区快半步,就能将这些启发吸收到新模型中”。此外,开源也是技术能力的“公开验证”——相比闭源模型依赖工程化Trick(如按问题领域调用特定子模型),开源模型的性能可被开发者直接部署、测试,更能体现真实智能水平。
2. 开源与AGI:拒绝“临时解法”,坚守通用智能
付强引用《The Bitter Lesson》(《苦涩的教训》)强调,AGI的实现无法依赖“复制人类既有知识”或“拆解问题片段”,而需追求智能的通用化。Kimi开源的深层逻辑是向行业证明:通过提升模型原生智能,而非临时的工程优化,同样能解决专业问题。“我们希望走向AGI,而不是停留在‘用户提问时答得好’的表层体验”。
三、Agent与Coding:AGI的“能力标尺”与“进化载体”
1. Agent的本质:模型原生能力,而非“外部套壳”
针对行业热词Agent,付强提出“赛车与赛车手”的类比:第三方Agent公司如同赛车手,通过调用模型API(赛车参数)发挥性能,但受限于逆向工程和模型更新的不确定性;而第一方模型公司需在构建基座时就融入Agent能力,实现“端到端训练”。他以数学学习为例——教小朋友“首项加末项”的口诀(类似第三方Agent的Workflow模仿),远不如让他通过大量做题自主悟规律(类似第一方模型的原生能力),后者的泛化性和智能层级更高。“好的Agent应像K2,原生具备调用工具、突破问题的能力,而非依赖后期Fine-tune”。
2. 选择Coding:AGI的“客观智能标尺”
Kimi将Coding作为重点发力领域,核心原因在于其“客观可验证”的特性——代码能否跑通是即时反馈,可作为模型智能的清晰衡量标准;而情绪价值、文本华丽度等指标缺乏客观评判依据。付强认为,AGI的发展需聚焦“智能程度越高,问题解决概率越大”的领域,Coding正是这类领域的代表。从实际表现看,K2在Coding评测中成绩优异,OpenRouter调用次数及顶级IDE厂商的接入也印证了市场认可。他强调:“能做好Coding的模型,一定能做好逻辑清晰的Writing;但擅长华丽Writing的模型,未必能解决复杂Coding问题,Coding是智能的基础。”
四、AGI的终极路径:模型与人类“共同演化”
谈及模型的价值观与未来,付强回归《The Bitter Lesson》的核心观点:AGI的发展应赋予模型“人类演进中的核心能力”——掌握工具、感知世界、自主交互与实验。“别把模型当宠物圈养,要让它像人类祖先钻木取火一样,自己做实验、从错误中总结”。他设想,未来模型不仅能在代码上做实验,还能开展物理、化学实验,通过与世界的持续交互不断进化,这才是AGI的终极方向。“模型的价值不在于提供情绪价值,而在于以更高智能解决问题;而实现这一目标的关键,是让它获得与人类共同演化的机会”。
结语:大模型发展的“去浮躁”与“重本质”
付强的对话透露出Kimi在AI浪潮中的“反浮躁”姿态:不追逐架构标新立异,而是深耕Token Efficiency;不沉迷短期流量,而是通过开源构建长期进化循环;不依赖工程Trick,而是坚守原生智能的提升。这种“重本质”的思路,或许为大模型从“工具”走向“AGI”提供了一条扎实路径——当行业不再纠结于表面创新,而是聚焦模型与世界的交互、与人类的共同演化,AGI的曙光才会真正临近。

一、重返预训练:反潮流背后的“Token效率”突破
1. 架构选择:不纠结“标新立异”,聚焦“好用”本质
针对K2模型采用与DeepSeekV3相似架构的疑问,付强表示,架构并非大模型竞争的核心——“汽车都长四个轮子,比拼的不是造五个轮子的车,而是车好不好开”。选择成熟架构的关键优势在于可重用既有推理资源,尤其K2定位为开源模型,需兼顾性能与部署效率。尽管架构相似,但K2在超参数(如MoE专家数量更多、注意力头数减半)、数据集选择、第一层dense模型紧致度等细节上进行优化,最终表现因这些差异而显著不同。
2. 反趋势决策:预训练仍有空间,拒绝“训练次数崇拜”
当行业趋势转向后训练、强化学习以逼近Agent时,Kimi却暂停K1.5的RL流程,重返预训练,这一“反潮流”举动源于对Scaling Law的重新判断。付强指出,行业中“Scaling Law到头了”的观点需辩证看待,预训练的瓶颈并非“投入不足”,而是“如何从有限数据中挖掘更多价值”。他反对“训练成本越低、次数越多越好”的简单逻辑——互联网高质量语料总量有限,若模型已学完所有公开知识,重复训练无法提升智能。Kimi的突破方向是提升“Token Efficiency(Token使用效率)”,让模型从同一段文本中挖掘更深层信息。
3. 智能提升路径:从“背书”到“举一反三”
付强以“7+5=12”举例说明Token Efficiency的实现逻辑:传统训练是“背书式”记忆等式本身,而高效训练需让模型理解等式背后的关联(如转化为12-7=5,掌握加减互逆关系)。类比到文本学习,模型需从Token中挖掘隐含信息——如诗句背后的历史背景、文字演化中的漏记与抄错,通过多维度比对和演化分析,实现“读10万字书,学出20万字内容”的效果。他认为,提升Token Efficiency至少能将Scaling Law“撞墙”时间推迟半年到一年,是当前预训练的核心突破点。
二、开源战略:让社区成为“共同演化”的推动力
1. 开源价值:小团队的“借力进化”逻辑
作为规模小于美国头部AI公司的团队,Kimi选择开源的核心诉求是构建“社区反馈-模型迭代”的循环。付强表示,开源能让开发者基于K2打造多样化应用,这些应用场景和用户反馈会启发Kimi的下一代模型研发方向。“我们欢迎社区做出更酷炫的产品,只要始终比社区快半步,就能将这些启发吸收到新模型中”。此外,开源也是技术能力的“公开验证”——相比闭源模型依赖工程化Trick(如按问题领域调用特定子模型),开源模型的性能可被开发者直接部署、测试,更能体现真实智能水平。
2. 开源与AGI:拒绝“临时解法”,坚守通用智能
付强引用《The Bitter Lesson》(《苦涩的教训》)强调,AGI的实现无法依赖“复制人类既有知识”或“拆解问题片段”,而需追求智能的通用化。Kimi开源的深层逻辑是向行业证明:通过提升模型原生智能,而非临时的工程优化,同样能解决专业问题。“我们希望走向AGI,而不是停留在‘用户提问时答得好’的表层体验”。
三、Agent与Coding:AGI的“能力标尺”与“进化载体”
1. Agent的本质:模型原生能力,而非“外部套壳”
针对行业热词Agent,付强提出“赛车与赛车手”的类比:第三方Agent公司如同赛车手,通过调用模型API(赛车参数)发挥性能,但受限于逆向工程和模型更新的不确定性;而第一方模型公司需在构建基座时就融入Agent能力,实现“端到端训练”。他以数学学习为例——教小朋友“首项加末项”的口诀(类似第三方Agent的Workflow模仿),远不如让他通过大量做题自主悟规律(类似第一方模型的原生能力),后者的泛化性和智能层级更高。“好的Agent应像K2,原生具备调用工具、突破问题的能力,而非依赖后期Fine-tune”。
2. 选择Coding:AGI的“客观智能标尺”
Kimi将Coding作为重点发力领域,核心原因在于其“客观可验证”的特性——代码能否跑通是即时反馈,可作为模型智能的清晰衡量标准;而情绪价值、文本华丽度等指标缺乏客观评判依据。付强认为,AGI的发展需聚焦“智能程度越高,问题解决概率越大”的领域,Coding正是这类领域的代表。从实际表现看,K2在Coding评测中成绩优异,OpenRouter调用次数及顶级IDE厂商的接入也印证了市场认可。他强调:“能做好Coding的模型,一定能做好逻辑清晰的Writing;但擅长华丽Writing的模型,未必能解决复杂Coding问题,Coding是智能的基础。”
四、AGI的终极路径:模型与人类“共同演化”
谈及模型的价值观与未来,付强回归《The Bitter Lesson》的核心观点:AGI的发展应赋予模型“人类演进中的核心能力”——掌握工具、感知世界、自主交互与实验。“别把模型当宠物圈养,要让它像人类祖先钻木取火一样,自己做实验、从错误中总结”。他设想,未来模型不仅能在代码上做实验,还能开展物理、化学实验,通过与世界的持续交互不断进化,这才是AGI的终极方向。“模型的价值不在于提供情绪价值,而在于以更高智能解决问题;而实现这一目标的关键,是让它获得与人类共同演化的机会”。
结语:大模型发展的“去浮躁”与“重本质”
付强的对话透露出Kimi在AI浪潮中的“反浮躁”姿态:不追逐架构标新立异,而是深耕Token Efficiency;不沉迷短期流量,而是通过开源构建长期进化循环;不依赖工程Trick,而是坚守原生智能的提升。这种“重本质”的思路,或许为大模型从“工具”走向“AGI”提供了一条扎实路径——当行业不再纠结于表面创新,而是聚焦模型与世界的交互、与人类的共同演化,AGI的曙光才会真正临近。
作者:恒行娱乐
新闻资讯 News
- 《许我耀眼》主演们下部待播剧:...10-20
- 向佑:向家“问题公子”的戏剧人...10-20
- 唐艺昕携5岁女儿环球影城同框:亲...10-20
- 两家创业板公司上榜,公募新品经...10-20