行动胜过言语: Meta落地工业界首个万亿级别参数的生成式推荐系统模型

2024年8月12日修改

蘑菇先生｜阅读原文

转载请联系原作者取得授权

大家好，我是蘑菇先生。今天分享一篇Meta最新的工作：借鉴LLMs思路重塑推荐系统范式，实现推荐系统的scaling。该工作第一次在核心产品线替换掉了近十年工业界长期使用的基于海量异构特征的深度推荐模型，在模型规模、业务效果、性能加速等方面都相当亮眼。有可能成为工业级推荐系统大规模scaling的开创性工作。

附件不支持打印

加载失败，

链接：https://arxiv.org/abs/2402.17152

Motivation

传统的大规模推荐系统基于海量用户行为数据，构造海量高基数和异构特征进行深度模型训练。尽管模型规模已经很庞大了，但如果想进一步进行scaling，则非常困难。

受到近期大语言模型成功的启发，Meta团队重新审视了传统的推荐系统范式，数十亿用户规模的推荐系统所面临的三类主要挑战：

•

特征缺乏显式结构：海量异构特征，如高基数ids、交叉特征、计数特征、比例特征等。

•

需要处理数十亿级别的动态词汇表：如ID/属性等。与语言模型中的10万量级静态词汇形成了鲜明对比。这种数十亿级别的动态词汇表不断变化，给训练带来很大挑战；且线上需要以目标感知target-aware的方式给数以万计的候选集打分，推理成本巨大。

•

计算成本是限制落地的最大瓶颈： GPT-3在1-2个月的时间内使用数千个GPU进行了总计300B tokens的训练。规模确实很大，但与推荐系统用户行为的规模相比就相去甚远了。最大的互联网平台每天为数十亿用户提供服务，用户每天与数十亿条内容、图片和视频进行交互。在极端情况下，用户序列的长度可能高达 10^5 。因此，推荐系统每天需要处理的tokens数量甚至比语言模型在1-2个月内处理的数量还要大好几个数量级。

行动胜过言语: Meta落地工业界首个万亿级别参数的生成式推荐系统模型​

行动胜过言语: Meta落地工业界首个万亿级别参数的生成式推荐系统模型