新闻资讯

快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

  (01024)早盘上涨3.47%,现报52.20港元,成交额7.68亿港元。

快手-W早盘涨超3% 发布全新大模型训练方法SRPO并宣布开源
(图侵删)

  4月23日,快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

  快手 Kwaipilot 团队在最新研究成果《SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化(two-Staged history-Resampling Policy Optimization ,SRPO),这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

  通过使用与 DeepSeek 相同的基础模型(Qwen2.5-32B)和纯粹的强化学习训练,SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩(AIME24 = 50、LiveCodeBench = 41.6),超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是,SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

  • 上海超万套保租房供应高校毕业生,各项目免押、打折等优惠频出
  • 中国小恐龙,大战侵权者
  • 卓锦股份(688701)投资者索赔进入半年倒计时,华微电子(600360)索赔案持续推进
  • 一码通天下,一中管万家——智慧社区管理新模式
  • 美国法院裁定谷歌滥用广告主导地位,谷歌表示将上诉
  • 晨丰科技,重要股东拟减持
  • 加拿大2月零售额下降0.4%预计3月将增长0.7%
  • “品牌聚势赋能 共创消费新章”北京国资公司举办2025年文体发布会
  • 境外旅客离境退税物品金额大幅下调至200元,现金退税金额上调至2万元
  • 《2025精准资料免费大全:助力您掌握未来信息制高点!》
  • 康方生物“出海”美国成功撞线
  • 山西运城虐童致死案宣判,生父发声:离最想要的结果还差一点,会继续讨公道
  • 富力地产旗下一酒店七折甩卖无人问津,首拍流拍
  • 韩国产业通商资源部:韩美将于本周就关税问题展开工作层面讨论
  • 澳门今晚9点35分将上演精彩演出,不容错过!
  • 关键词: