Published at 2026-01-17 | Last Update 2026-01-17
本文是阅读学习快手的 OpenOneRec Tech Report 时整理的一些笔记, 很多训练相关的信息已经开源,见 github.com/Kuaishou-OneRec/OpenOneRec, 包括:
整体框架:

训练&评估任务:

相关文章:
水平及维护精力所限,文中不免存在错误或过时之处,请酌情参考。 传播知识,尊重劳动,年满十八周岁,转载请注明出处。
本文提出了 RecIF-Bench:一个推荐领域的指令遵循测试基准 (benchmark)。
为了缓解 SFT 带来的通用能力退化,本文引入了一个两阶段对齐策略, 能同时恢复通用能力+提升具体任务的准确率:
on-policy distillationrecommendation-oriented Reinforcement Learning (Rec-RL)每个尺寸的模型又分为两个版本,
将 Item 作为一个独立的模态(a distinct modality),采用 Itemic Tokens 方案 (Luo et al., 2025; Zhou et al., 2025a),见图 2,

Figure 2 | OneRec 整体框架。
(1) Pre-Training: 通过 Itemic-Text Alignment 和推荐领域+通用领域数据的联合预训练,使模型能理解推荐领域的业务语义。
(2) Post-Training: 通过 SFT 解锁多种下游任务能力,
以及通过交替进行通用蒸馏和强化学习来平衡模型的通用推理能力和推荐能力。
(3) Evaluation: 基于 RecIF-Bench,以及这 Amazon 数据集上验证跨领域转移能力。
采用 RQ-Kmeans (Luo et al., 2025),将 item metadata 的语义 embedding 离散化为 discrete codes。
Next-Token Prediction80:20 切分基于用户维度切分训练集和测试集。20w 用户,随机拆分,
RecIF-Bench 将 8 类任务分为了 4 层。
Table 2 | RecIF-Bench 任务术语:8 类任务分为 4 层,描述了它们的 input/output 格式和评估重点。

训练数据样例:

Figure 4 | RecIF-Bench 任务举例。We organize 8 tasks across 4 capability layers, specifying the instruction, context, and target.
评估模型是否已经抹平 itemic tokens 和 natural language 之间的差异,这是后续所有任务的基础。
Item 描述 -> Item TokenItem Understanding:Item Token -> Item textual metadata (e.g., title, caption)评估模型捕捉用户偏好的能力,预测用户-货品交互行为,
Yes/No response.这一层评估模型是否能将预测能力适应到自然语言指令上,也就是自然语言推荐任务的指令遵循能力,这是基于 LLM 的推荐系统与传统推荐系统的核心不同。
输入:
输出:一段自然语言的推荐理由,解释为什么推荐这个商品。
Ground Truth for L3: Since reasoning tasks lack natural ground truth, we use Gemini-2.5-Pro with full metadata access to
generate high-quality reference outputs.
Pass@K, Recall@K对推荐任务 (Layer 1 & 2),使用如下评估指标:
LLM-as-Judge对文本生成任务 (Layer 0 & 3), we employ LLM-as-Judge, prompting an independent LLM to rate the generated text on dimensions such as accuracy and coherence. 详见 Appendix B.1
<|item_begin|><item_a_5028><item_b_6733><item_c_2559><|item_end|>
为了增强模型对 item 的推荐能力,对 item metadata 数据分为了三类:
Itemic Dense Caption Data:基础的物品语义数据
Sequential User Behavior Data:基础推荐能力的核心训练语料
Interleaved User Persona Grounding Data:构建量化空间的 deep semantic grounding
拿推荐领域的数据对模型进行训练之后,基座模型的数据分布会跟原来有很大的偏移,导致 catastrophic forgetting。
通过增加通用领域的训练数据来缓解这个问题:
数据集下载:
数据去重算法:MinHash algorithm (Broder, 1997)
we develop two model variants based on the scale of the training corpus:
基座都是 Qwen3,数据配比和 token 预算见 Appendix B.4
建立 itemic tokens and text tokens space 之间的初步对齐。
Note that in Qwen3, smaller models (e.g., 0.6B, 1.7B, 4B) employ tied embeddings where the embedding and output projection layers share parameters, while larger models (e.g., 8B and above) have independent output projection parameters. For larger models, the output projection parameters corresponding to itemic tokens are also trainable, ensuring proper alignment in the output space.
全参预训练(full-parameter pre-training),给模型注入推荐领域的知识。
We use the AdamW optimizer with 𝛽1 = 0.9, 𝛽2 = 0.95, and weight decay of 0.1. The learning rate follows a cosine decay schedule with a linear warmup phase, where the peak learning rate is set to 1 × 10-3 for Stage 1 and 1 × 10-4 for Stage 2, and the minimum learning rate is set to 1 × 10-4 and 2 × 10-5. The warmup duration spans the first 10% of training steps. To accommodate the long sequential nature of user behavior data, we set the maximum context length to 32K tokens, enabling the model to process extended user interaction histories and complex recommendation scenarios. This extended context window is crucial for capturing long-term user preferences and understanding intricate patterns in sequential recommendation tasks.

Figure 6 | Post-training pipeline of the OneRec series models
预训练之后,能理解商品了,但指令遵循能力、推理能力和通用能力都有退化,也还不能处理复杂的推荐任务。
通过三个阶段的 post-training 来解决以上问题:
这个阶段的目的是恢复和增强模型的基础指令遵循和推理能力,包括在通用领域和推荐领域。
详见 Appendix B.5.
发现:通用能力的恢复也会增强后面的推荐任务的推理能力。
上一个阶段恢复了指令遵循和 thinking 的基础能力,但我们注意到通用领域的 reasoning 能力还是丢失了不少(a persistent capability gap in general-domain reasoning), 可能是由于 distributional shift and the inherent sensitivity of RL-initialized backbones。 为了解决这个问题,我们设计了一个用于通用任务的 on-policy distillation strategy。
200K general-domain questions from the SFT dataset从论文表 10-11 可见:
为了解决这些问题,引入了 Recommendationoriented Reinforcement Learning (Rec-RL).
Rule-based Recommendation Reward.
为了将模型和 ranking accuracy 对齐,设计了一个稀疏的、基于规则的奖励函数,关注在”Hit” events.。
尽管我们的实验证实了一个不错的基座推荐模型能显著提升下游性能,但这些增益的幅度目前仍受限于 tokenizer 的可迁移性。
A promising avenue for future work lies in maximizing the reuse of foundation model priors while simultaneously ensuring high-quality item indexing (code quality) for downstream tasks.
维持模型的通用智能与推理能力需要在训练过程中混合大量通用领域文本。 研究最优的数据配比并提升数据利用效率,是平衡领域特定精度与通用能力的迫切挑战。
我们观察到思维链推理目前仅在有限场景中带来改进。 这凸显了对 test-time scaling 策略进行更严格探索的必要性,以在多样化的推荐场景中实现一致的推理增益。
视频<|item_begin|><item_a_5028><item_b_6733><item_c_2559><|item_end|> 展示了以下内容:视频内容聚焦在庆祝冬至这一重要节日的习俗,特别是享受饺子与汤圆等美食。
视频表达了冬至节气的特色意义,以及人们对新一年开始的寓意。内容上,显现出浓浓的节日气氛与家庭温暖,可能会触动那些寻求传统节日体验和家的感觉的观众。
视频还可能激发观众对中华传统文化的兴趣,以及对家人团聚时的美好记忆。通过美食与节日的结合,观众可感受到温馨和幸福,为冬至节日的到来营造了欢乐与期盼。
用户的曝光序列为<|item_begin|><s_a_1023><s_b_5426><s_c_6422><|item_end|>, <|item_begin|><s_a_3168><s_b_7950><s_c_4134><|item_end|>,......;
其中长播列表是<|item_begin|><s_a_4988><s_b_7436><s_c_2477><|item_end|>, <|item_begin|><s_a_5087><s_b_7888><s_c_4759><|item_end|>,......;
点赞列表是<|item_begin|><s_a_3168><s_b_7950><s_c_4134><|item_end|>, <|item_begin|><s_a_250><s_b_2310><s_c_4925><|item_end|>,......
Interleaved User Persona Grounding Data
平台上有一名用户,她创作内容涵盖:8 个其他,1 个美食,1 个数码,1 个明星娱乐。
她近期的搜索记录包括:怎么拍游戏视频、黑白头像可爱、......。
她近期的购买记录包括:商品<|item_begin|><item_a_6133><item_b_5060><item_c_5431><|item_end|>,具体类型为【女装-裤子-休闲裤】,花费 290 元。
她近期在视频<|item_begin|><item_a_3316><item_b_7440><item_c_2022><|item_end|>下评论了"这个短剧叫什么名字啊";
在视频<|item_begin|><item_a_7822><item_b_1648><item_c_5756><|item_end|>下评论了"嘻嘻嘻,真的吗?我也喜欢玩蛋仔派对,早就关注你了";......。
她点赞了视频<|item_begin|><item_a_5743><item_b_930><item_c_1231><|item_end|>......;
收藏了视频<|item_begin|><item_a_468><item_b_8186><item_c_5877><|item_end|>......;
分享了视频......。她关注的博主类型有:【其他】占 47.58%,【颜值】占 16.52%,【明星娱乐】占 8.37%,......。
她近期观看的直播类型包括:【闲聊互动-热闹闲聊】分类下的直播点赞了 6 次,评论了 59 次;......
她过去 30 天观看时间最长的 1 种短剧类型分别是:[解密_悬疑]看了 30.0 分钟
Table 13 | Data mixture for Pre-training. The table presents the distribution across general domains and recommendation domains, showing the sampling weight of each dataset and the subtotal ratio for each category.

Table 14 | Data Composition and Token Budgets for Pre-training Stages. This table illustrates the training configurations for the Open and Pro model variants across different stages, specifying the parameter focus, data domain distribution, and allocated token budgets.

Table 15 | Data Mixture for Multi-task SFT. The table presents the distribution across reasoning and recommendation domains, showing the sampling weight of each dataset and the subtotal ratio for each category.
