行动胜过言语: Meta落地工业界首个万亿级别参数的生成式推荐系统模型
行动胜过言语: Meta落地工业界首个万亿级别参数的生成式推荐系统模型
2024年8月12日修改
大家好,我是蘑菇先生。今天分享一篇Meta最新的工作:借鉴LLMs思路重塑推荐系统范式,实现推荐系统的scaling。该工作第一次在 核心产品线 替换掉了近十年工业界长期使用的 基于海量异构特征的深度推荐模型, 在模型规模、业务效果、性能加速等方面都相当亮眼。有可能成为工业级推荐系统大规模scaling的 开创性工作 。
附件不支持打印
加载失败,
Motivation
传统的大规模推荐系统基于海量用户行为数据,构造海量 高基数和异构特征 进行深度模型训练。尽管模型规模已经很庞大了,但如果想进一步进行scaling,则非常困难。
受到近期大语言模型成功的启发,Meta团队重新审视了传统的推荐系统范式,数十亿用户规模的推荐系统所面临的三类主要挑战:
•
特征缺乏显式结构 :海量异构特征,如高基数ids、交叉特征、计数特征、比例特征等。
•
需要处理数十亿级别的动态词汇表 :如ID/属性等。与语言模型中的10万量级静态词汇形成了鲜明对比。这种数十亿级别的动态词汇表不断变化,给训练带来很大挑战;且线上需要以目标感知target-aware的方式给数以万计的候选集打分,推理成本巨大。
•
计算成本是限制落地的最大瓶颈: GPT-3在1-2个月的时间内使用数千个GPU进行了总计300B tokens的训练。规模确实很大,但与推荐系统用户行为的规模相比就相去甚远了。最大的互联网平台每天为 数十亿用户 提供服务,用户每天与 数十亿条 内容、图片和视频进行交互。在极端情况下,用户序列的长度可能高达 10^5 。因此,推荐系统 每天 需要处理的tokens数量甚至比语言模型在1-2个月内处理的数量还要大好几个数量级。