复旦教授谈DeepSeek AI界的“鲶鱼”效应

2025-02-05 22:50:20 互联网绿达之家网26

核心提示：科技圈从来不缺新闻，但 DeepSeek-R1 的出现却像一颗石子投入平静的湖面，激起了层层涟漪。这家来自中国的 AI 初创公司以其开源的推理大模型 R1 搅动了全球 AI 格局

科技圈从来不缺新闻，但 DeepSeek-R1 的出现却像一颗石子投入平静的湖面，激起了层层涟漪。这家来自中国的 AI 初创公司以其开源的推理大模型 R1 搅动了全球 AI 格局。R1 不仅性能媲美甚至超越 OpenAI o1，还以低廉的成本和开放的姿态赢得了全世界的关注。DeepSeek-R1 的开源策略和高效性能正在迫使整个行业重新思考 AI 的未来。

中国计算机学会青年计算机科学与技术论坛（CCF YOCSEF）近期组织了一场研讨会，邀请了复旦大学邱锡鹏教授、清华大学刘知远长聘副教授、清华大学翟季冬教授以及上海交通大学戴国浩副教授四位专家，从不同角度深入解析了 DeepSeek-R1 的技术突破与未来影响。

复旦教授谈DeepSeek AI界的“鲶鱼”效应

要理解 R1 的突破，需要从 o1 类推理模型说起。邱锡鹏认为当前人工智能领域正面临一个重要转折点。此前 Ilya 称“预训练时代可能即将结束”，主要源于数据增长的停滞。OpenAI 开始转向强化学习和推理式计算，试图通过增加推理长度来改进模型性能，为下一代大模型的发展注入新动力。

复旦教授谈DeepSeek AI界的“鲶鱼”效应

o1 模型的训练在强化学习框架下进行，大语言模型充当一个 Agent，每个动作生成下一个 token，最终生成整个 step 或 solution。o1 这类大型推理模型可以分为四个核心要素：策略初始化、奖励函数设计、搜索策略和学习过程。策略初始化要求模型具备初始的类人推理行为能力，包括问题理解、任务分解及验证和修正错误的能力。奖励函数设计则涉及从环境中直接获得奖励信号或通过专家偏好数据训练奖励模型。搜索策略包括基于树的搜索和基于顺序修改的搜索。学习过程主要包括使用强化学习和其他方法优化模型，分为预热阶段和强化学习阶段。

R1 发布了两个版本：R1-Zero 和 R1。R1-Zero 完全依靠强化学习驱动，不经过预热阶段，没有任何初始的人工调节。在训练过程中，随着步骤的增加，模型逐渐展现出长文本推理能力，尤其是长链推理，并表现出自我修正能力。不过也存在一些问题，如语言混合的问题。

复旦教授谈DeepSeek AI界的“鲶鱼”效应

R1 的训练分为四个关键阶段：冷启动阶段、推理导向的强化学习阶段、拒绝抽样与监督微调阶段，以及全任务强化学习阶段。值得注意的是，R1 并未采用传统的过程监督或蒙特卡洛树搜索等技术，而是通过 majority vote 大幅提高推理效果。尤其令人意外的是，R1 在写作能力方面表现突出。

复旦教授谈DeepSeek

免责声明：以上所展示的信息由网友自行发布，内容的真实性、准确性和合法性由发布者负责。绿达之家网对此不承担任何保证责任, 绿达之家网仅提供信息存储空间服务。任何单位或个人如对以上内容有权利主张（包括但不限于侵犯著作权、商业信誉等），请与我们联系并出示相关证据，我们将按国家相关法规即时移除。

本文地址:http://news.tianlu58.com/349251.html

收藏 0打赏 0

更多>同类资讯

推荐图文

“黑色黄金”重大突破	武汉女子用159元发票
雷军：民营企业要敢为	王楚钦强势登顶，国乒
关于伊朗局势王毅连	300元滑雪服被冻哭的
音乐人袁惟仁被紧急送	郭士强谈世预赛目标

推荐资讯

点击排行

网站首页 | 网站地图 | 排名推广 | SiteMap

免责声明：本站所有信息均来自互联网搜集，产品相关信息的真实性准确性均由发布单位及个人负责，请大家仔细辨认！并不代表本站观点,绿达之家网对此不承担任何相关法律责任！如有信息侵犯了您的权益，请告知，本站将立刻删除。
友情提示：买产品需谨慎
网站资讯与建议：ldzjw@foxmail.com