快手-W早盘涨超3% 发布全新大模型训练 *** SRPO并宣布开源

时间：2025-04-25 11:15:03 栏目：新闻资讯浏览：50

热点栏目

　　（01024）早盘上涨3.47%，现报52.20港元，成交额7.68亿港元。

（图侵删）

　　4月23日，快手Kwaipilot团队发布全新大模型训练 *** SRPO并宣布开源。该 *** 仅用 GRPO 1/10的训练成本，在数学与代码双领域基准测试中实现性能突破：AIME2024 得分50，LiveCodeBench 得分41.6，成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的 *** 。

　　快手 Kwaipilot 团队在最新研究成果《SRPO： A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM》中提出了一种创新的强化学习框架 —— 两阶段历史重采样策略优化（two-Staged history-Resampling Policy Optimization ，SRPO），这是业界首个同时在数学和代码两个领域复现 DeepSeek-R1-Zero 性能的 *** 。

　　通过使用与 DeepSeek 相同的基础模型（Qwen2.5-32B）和纯粹的强化学习训练，SRPO成功在AIME24和LiveCodeBench基准测试中取得了优异成绩（AIME24 = 50、LiveCodeBench = 41.6），超越了DeepSeek-R1-Zero-32B 的表现。更值得注意的是，SRPO 仅需 R1-Zero 十分之一的训练步数就达到了这一水平。

上海超万套保租房供应高校毕业生，各项目免押、打折等优惠频出

中国小恐龙，大战侵权者

卓锦股份（688701）投资者索赔进入半年倒计时，华微电子（600360）索赔案持续推进

一码通天下，一中管万家——智慧社区管理新模式

美国法院裁定谷歌滥用广告主导地位，谷歌表示将上诉

晨丰科技，重要股东拟减持

加拿大2月零售额下降0.4%预计3月将增长0.7%

“品牌聚势赋能共创消费新章”北京国资公司举办2025年文体发布会

境外旅客离境退税物品金额大幅下调至200元，现金退税金额上调至2万元

《2025精准资料免费大全：助力您掌握未来信息制高点！》

康方生物“出海”美国成功撞线

山西运城虐童致死案宣判，生父发声：离最想要的结果还差一点，会继续讨公道