Published at 2025-11-27 | Last Update 2025-11-27

| 不同类型的真实世界 | 建模元素 | 对应的模型类型 |
|---|---|---|
感知世界(Perceptual World) |
视觉(Vision) | 扩散模型(Diffusion Models, DMs) |
认知世界(Cognitive World) |
语言(Language) | 大语言模型(LLMs) |
行为世界(Behavioral World) |
交互(Interaction) | 用户行为的模型? |
从模型和现实世界的对应关系来看,感知世界(Perceptual World)和 认知世界(Cognitive World) 都已经有了对应的大模型类型,分别基于视觉(Vision)和语言(Language) 建模, 并且基本都是基于生成式架构,实际效果非常好。
推荐领域属于行为世界(Behavioral World), 这个场景基于交互(Interaction)建模,目前还没有跟前两个领域一样成功的模型。 一个思路是:如果大量场景已经充分证明了生成式是一把非常好的锤子, 那我们是不是能把还没有很好解决的问题变成钉子?—— 具体到推荐场景, 就是通过一些工程和算法手段,把推荐任务变成一个生成任务,从而套到生成式框架里。 这就是生成式推荐模型(generative recommendation models)背后的思想。
最近有一篇很详尽的关于这个领域近几年发展的综述: Towards Large Generative Recommendation: A Tokenization Perspective。 本文整理一些阅读笔记和思考。
水平及维护精力所限,文中不免存在错误或过时之处,请酌情参考。 传播知识,尊重劳动,年满十八周岁,转载请注明出处。
大型生成式模型(large generative models)的出现正在深刻改变推荐系统领域。
构建此类模型的基础组件之一是 action tokenization,
即将人类可读数据(例如用户-商品交互数据)转换为机器可读格式(例如离散 token 序列),
这个过程在进入模型之前。
本文介绍几种 action tokenization 技术(将用户行为分别转换为物品 ID、文本描述、语义 ID), 然后从 action tokenization 的视角探讨生成式推荐领域面临的挑战、开放性问题及未来潜在发展方向,为下一代推荐系统的设计提供启发。
生成式模型从大量给定样本中学习到底层的数据分布(underlying distribution of data), 然后就能生成新的样本(generate new samples)。如下图所示,在学习了大量动物图文之后, 模型就能根据给定指令生成动物照片(“奔跑的猫/狗/马”),

Scaling laws 提供了一个框架,通过这框架可以理解 model size, data volume, test-time computing
如何影响 AI 能力的进化。语言建模领域已经验证了这一框架的有效性。

Scaling Law as a Pathway towards AGI. Understanding Scaling Laws for Recommendation Models. Arxiv 2022
三种类型的真实世界:

做个表格对比,
| 不同类型的真实世界 | 建模元素 | 对应的模型类型 |
|---|---|---|
感知世界(Perceptual World) |
视觉(Vision) | 扩散模型(Diffusion Models, DMs) |
认知世界(Cognitive World) |
语言(Language) | 大语言模型(LLMs) |
行为世界(Behavioral World) |
交互(Interaction) | 用户行为的模型? |
总结起来有两点,

这里的 Item 是推荐系统推荐的东西,可以是一个商品,也可以是一个笔记、视频等等。
| 建模类型 | 知识密度 | Token 类型 | Token 空间 |
|---|---|---|---|
| 语言模型 | 稠密的世界知识(Dense world knowledge) | 文本 token | 10^5 |
| 推荐模型 | 稀疏的“用户-物品”交互数据(Sparse user-item interactions) | Item token | 10^9 |
可以看到,相比于语言建模,推荐领域的知识非常稀疏,因而 scaling laws 在传统推荐模型上几乎没什么效果。
Token 化是为了方便计算机处理。
具体来说,就是将 human-readable data (Text, Image, Action, …)
转换成 machine-readble formats (Sequence of Tokens)。
语言模型的 tokenize 和 de-tokenize 过程如下,更多信息可参考 如何训练一个企业级 GPT 助手(OpenAI,2023)。

推荐模型的 tokenization 我们后面介绍。
几种生成式推荐模型的 tokenization 方案(有点早期了):
SASRec [ICDM’18], Kang and McAuley. Self-Attentive Sequential Recommendation. ICDM 2018
Each item is indexed by a unique item ID, corresponding to a learnable embedding
UniSRec [KDD’22], Hou et al. Towards Universal Sequence Representation Learning for Recommender Systems. KDD 2022
LLaRA [SIGIR’24], Liao et al. LLaRA: Large Language-Recommendation Assistant. SIGIR 2024
和语言模型做个对比,典型模型的 token 数量(vocabulary size):

https://amazon-reviews-2023.github.io/
128K~256K tokens;48.2M tokens;
Token 太多导致数据太稀疏,很难有效训练一个大型生成式模型。是否可以将人类可读的行为数据通过 tokenization 变成一种数据分布(跟语言建模类似), 然后训练一个生成式模型来拟合这个分布?

如上图所示,在实际实现上有两个方向:
Semantic IDs:SemID-based Generative Rec(基于语义 ID 的生成式推荐)。这类方案的 Tokenization 过程:
例如在下图的商品推荐场景,输入是用户购买过的四个商品,token 化之后就是四段分别描述这四个商品的纯文本:

一句话总结优缺点:
下面详细看一下这类方案的特点。

大语言本身有丰富的世界知识,例如下图的文本中只是出现了一个单词(token) Titanic,
它就已经知道这指代的是一部著名电影了 —— 这部电影的知识都已经内化在模型里了。

Liao et al. LLaRA: Large Language-Recommendation Assistant. SIGIR 2024.
因此,在基于语言模型+文本描述的生成式推荐中,只需少量数据就能得到一个不错的推荐效果, Few data -> a good recommender
传统推荐系统主要是利用用户的历史购买记录和用户行为来预测接下来的购买行为:

LLM-based 生成式推荐,则可以利用 LLM 强大的自然语言理解和生成能力,通过对话方式叠加购买记录/用户行为,给出推荐:

很好理解,大模型的强项。
如何验证效果?
一种评估方式:LLM as user simulator。
Sequential Recommender早期尝试:直接用通用的预训练模型做推荐:
因此后续开始在通用预训练的大语言模型上,通过 Continue Pre-Train (CPT)、SFT、RL 等等, 对齐到推荐任务和用户偏好。
这里介绍两个方案,P5 和 InstructRec。
P5 如下图所示,5 类推荐任务及对应的训练样本,

P5 Multi-task Cross-task generalization.
Geng et al. Recommendation as Language Processing (RLP): A Unified Pretrain, Personalized Prompt & Predict Paradigm (P5). RecSys 2022
InstructRec 的训练样本:

InstructRec: Unify recommendation & search via instruction tuning.
Zhang et al. Recommendation as Instruction Following: A Large Language Model Empowered Recommendation Approach. TOIS
SFT 的训练目标是预测下一个 token。例如,给定输入:
I have watched Titanic, Roman Holiday, … Gone with the wind. Predict the next movie I will watch:
期望模型依次预测出 Waterloo 和 Bridge 这两个 token。
优化的目标:


下面是一个例子,对给定的两个推荐结果做出评价(反馈/奖励),好还是坏,

Preference learning 典型方案:Chen et al. On Softmax Direct Preference Optimization for Recommendation. NeurIPS 2024
这一步是通过强化学习激发出推理能力,典型方案:

Retrieve real items by generated text.
Bao et al. A Bi-Step Grounding Paradigm for Large Language Models in Recommendation Systems. TORS
Conversational Recommender在非常有限的对话数据集上训练,针对具体任务的对话式推荐引擎,缺点:

Chen et al. All Roads Lead to Rome: Unveiling the Trajectory of Recommender Systems Across the LLM Era. arXiv.2407.10081
基于语言模型+文本描述的生成式推荐,效率低,效果也比较有效,因此需要探索其他方式, 其中比较有希望的一种是引入特殊的 token (Semantic IDs)来表征 Item。
再来回顾下语言模型的 tokenize/de-tokenize 过程:

这里需要注意,一般来说 token 和单词并不是一一对应的,有时候一个 token 只是一个完整单词的一部分,

问题:
token:word ≠ 1:1也就是说,为什么不设计成一个单词一个 token?
这会导致 vocabulary size 非常大,例如每个动词都有好几种时态,每个名词一般单复数都不一样; vocabulary size 过大会导致模型不健壮;
token:char ≠ 1:1也就是说,为什么不设计成一个字符一个 token?
这会导致每个句子的 token 太多(上下文窗口非常长);建模困难。
推荐模型的 tokenization 可以有几种不同的方式。
如下图所示:

优点是简单直接,缺点是
因此实际上基本不可用。
如下图所示,

其中的蓝色长文本分别是图中四个商品的文本描述:
优点是有商品的语义信息; 缺点是每个商品的 token(文本描述)过长,训练/推理非常低效,另外类似商品的区分度很低, 也导致实际上基本不可用。
-> SemanticID有没有一种方案能结合前两种方案的优点呢?有,这就是我们接下来要重点介绍的 SemanticID。
下图是一个例子,这里是用四个连续 token 索引一个商品,

还是上面那个例子,其中的四个 token 分别来自四个 vocabulary,每个 vocabulary 表征商品的不同维度。 例如第二个 token 来自下图中所示的 vocabulary:

如果每个 vocabulary 256 tokens,那
256^4≈4.3×10^9,也就是 4.3 亿个商品;
下图是三种方式的对比(从左到右依次是方案一、三、二),

对应的 vocabulary 大小:

详见 paper:

Rajput et al. Recommender Systems with Generative Retrieval. NeurIPS 2023.
将 recommendation 转化成 seq-to-seq 生成问题:

items <--> SemanticIDs);其中一类是称为 RQ-VAE-based SemIDs。代表是 TIGER。
如下图所示,TIGER 用到了 ItemID/Title/Description/Categories/Brand 作为输入信息:

Rajput et al. Recommender Systems with Generative Retrieval. NeurIPS 2023.
构建步骤:
第一步是以规定的顺序组织商品内容信息,

Ni et al. Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models. Findings of ACL 2022. Rajput et al. Recommender Systems with Generative Retrieval. NeurIPS 2023
第二步是对内容信息进行编码,这里用了一个 Encoder,然后再做 Embedding,

Ni et al. Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text Models. Findings of ACL 2022. Rajput et al. Recommender Systems with Generative Retrieval. NeurIPS 2023
RQ-VAE Quantization 将向量变成 ID,图中的 7, 1, 4 就是 SemanticIDs,

Zeghidour et al. SoundStream: An End-to-End Neural Audio Codec. TASLP 2022. Rajput et al. Recommender Systems with Generative Retrieval. NeurIPS 2023.
Semantic

Ordered / sequential dependent

Collisions

Training UnstableUnbalanced IDs因此后面陆续有一些变种,

这里介绍下快手的 OneRec,

Deng et al. OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment. arXiv:2502.18965
几种构建 SemIDs 的方式:
Input: all data associated with the item What exactly does “all data” mean?


Zhu et al. Beyond Unimodal Boundaries: Generative Recommendation with Multimodal Semantics. arXiv:2503.23333.
相关 papers:
+ Behaviors (Regularization, Fusion, Context)
Rajput et al. Recommender Systems with Generative Retrieval. NeurIPS 2023

Zhou et al. OneRec-V2 Technical Report. arXiv:2508.20900.

Rajput et al. Recommender Systems with Generative Retrieval. NeurIPS 2023.

Hou et al. Generating Long Semantic IDs in Parallel for Recommendation. KDD 2025.
方案有好几种,这里介绍两种。

Liu et al. OneRec-Think: In-Text Reasoning for Generative Recommendation. arXiv:2510.11639

Kong et al. MiniOneRec: An Open-Source Framework for Scaling Generative Recommendation. arXiv:2510.24431
How to get a ranking list?
大致分为两个阶段:
相比传统推荐系统,生成式推荐模型仍然面临一些不小的挑战。
基于 SemanticID 的模型,是否在冷启动上表现很好?
Lin et al. Efficient Inference for Large Language Model-based Generative Recommendation. ICLR 2025
推理算法:
K Nearest Neighbor SearchBeam Search如何加速 LLM 推理?Speculative Decoding
Multiple objectives for optimizing item tokenization. But none of them is directly related to rec performance:

Hou et al. ActionPiece: Contextually Tokenizing Action Sequences for Generative Recommendation. arXiv:2502.13581
生成式推荐模型将给推荐系统带来哪些新的机会?
Abilities not present in smaller models but is present in larger models.
Do we have emergent abilities in large generative recommendation models?
There have been explorations on model / data scaling of recommendation models.
Test-time scaling is still under exploration
There have been explorations on model / data scaling of recommendation models Test-time scaling is still under being actively exploration

Liu et al. OneRec-Think: In-Text Reasoning for Generative Recommendation. arXiv:2510.11639
Is it possible to replace traditional cascade architecture with a unified generative model?

Deng et al. OneRec: Unifying Retrieve and Rank with Generative Recommender and Iterative Preference Alignment. arXiv:2502.18965