当推荐与搜索遇见大模型,会碰撞出什么样的火花 | CCF C?
推荐和搜索是近年来信息分发的重要方式,小红书UGC社区让人印象深刻,其推荐系统有何特别之处?学界对搜推系统召回阶段有哪些主要进展和主流方法?面对大语言模型的兴起,推荐和搜索的发展有哪些机遇和挑战?
为联结计算技术领域企业技术高管和专家学者,探讨技术发展趋势,由CCF CTO Club发起的CCF C?活动在3月30日走进小红书,多位来自行业的专家和学者以“智能推荐与搜索”为主题,与现场40余位嘉宾深入探讨交流。同时,活动全程在“量子位”、“小红书技术REDtech”、“机器之心”、“B站”等多平台同步直播,共吸引16000+人在线观看,直播数据创CCF C?活动历史新高。
CCF C?走进小红书
活动现场由CCF副秘书长、企工委主任、亿邦动力CEO王超主持。CCF 副理事长、创新工场首席科学家、澜舟科技创始人兼CEO周明,小红书技术副总裁风笛分别致辞,周明代表CCF为活动承办方小红书颁发CCF C?活动承办单位感谢牌。本活动邀请风笛和武汉大学国家网络安全学院教授李晨亮,就《小红书推荐系统的技术创新与实践》和《搜推系统召回阶段的前沿进展》作主题报告分享。在圆桌论坛《智能推荐未来的展望》中,风笛作为主持人,与中国人民大学杰出学者特聘教授、北京智源人工智能研究院智源学者徐君,天津大学副教授、华为诺亚方舟决策推理实验室主任郝建业,中国科学院计算技术研究所副研究员敖翔,汇量科技首席人工智能官朱小强,小红书社区技术负责人夏侯共同对话,分享真知灼见,探讨推荐和搜索的未来。
分享 · 小红书推荐系统的技术创新与实践
?
作为当下发展迅速的移动互联网平台,小红书正成为跨代际人群的生活百科全书。社区每天都会产生大量图文、视频、评论互动等信息,这些多模态数据让小红书App成为推荐、搜索的最佳实践场所,同时也提出不小的技术挑战。风笛在分享《小红书推荐系统的技术创新与实践》主题报告时,先从企业整体视角出发,解读小红书推荐系统背后的核心理念,再详细阐述技术难题和应对策略。
风笛介绍小红书业务时表示,小红书的主要目标用户经过不同的业务发展阶段已经从最初的“高消费能力的女性群体”向外泛化,希望服务更广泛的人群。近三年,小红书用户数量增长迅速,截至去年底,月活用户超过2.6亿、月度活跃创作者超过2000万。目前,小红书的定位是一个普通人帮助普通人的内容分享社区,聚集多元生活方式,核心理念是“Inspire Lives 分享和发现世界的精彩“。作为一个内容丰富的UGC社区,小红书鼓励每个用户发布的内容都能被全世界看到,这就意味着它的推荐系统不同于业界的常规做法,更注重平权分发而非仅仅追求效率。这需要一个更加去中心化的流量分发机制,对算法模型是不小的挑战。
结合小红书业务特点,风笛详细阐述了推荐系统的四点主要挑战:多模异构内容推荐、去中心化分发、兴趣多样性和人群破圈,以及成本控制算力优化。小红书人的工作方式是“走进用户”,重视用户体验的态度也融入到了小红书App中,例如坚持使用双列的产品形态,是为了给用户自由选择的权利。传统人工定义的层次化标签,无法完整刻画图文和视频内容;小红书技术团队基于10亿量级的图文、视频笔记,将多模态预训练运用到推荐系统中,获得内容的向量化表征;未来将打通内容表征和行为表征,两域联合建模。
如何在平衡全局效率约束下做潜力预估和流量分配?为应对业界公认的冷启动难题,小红书高时效推荐系统从“天级更新”升级为“分钟级更新”,这对新笔记冷启动和扶持小众内容均有增益。为优化用户体验,避免用户落入信息茧房,风笛表示会设置各种指数遗忘策略,对用户的实时兴趣做降权,保证兴趣多样性,缓解追打密集。这样既能平衡用户的用户的长期兴趣与短期兴趣,亦能促进社区生态繁荣。
此外,为让有共同兴趣的用户充分沟通,小红书推荐系统追求的是非全局效率最优,简言之就是“人以群分”,让每篇笔记内容、每位用户都能在自己的兴趣圈层进行交流。在小红书社区,和用户交朋友,让真诚流动,让小众内容长起来,让人与人的连接更紧密。分享最后,风笛也抛出了两个小问题供业内思考,如何做高效的兴趣探索和如何对留存进行建模。
风笛做主题报告
分享 · 搜推系统召回阶段的前沿进展
?
在数据爆炸的时代,每个人都需要进行信息检索。推荐和搜索是最主要的方式,而人机对话也逐步成为主流。在工业界同样如此,搜推系统的召回阶段非常关键:在实际业务场景中,如何在亿级商品中快速找到用户感兴趣的候选商品?这一步决定了精排阶段的成功与否。武汉大学李晨亮教授带来了《搜推系统召回阶段的前沿进展》主题报告。在报告中,他介绍近几年搜推系统召回阶段的主要进展和主流方法,结合相关前沿工作,探讨未来的发展趋势。
在召回阶段,业界对于响应时延的苛刻要求,导致无法应用能力更强但是计算开销更大的模型方法。李晨亮教授指出:“召回的首要目标是保证低时延,同时满足效率和性能,对当前研究依然是不可逾越的挑战,这不是技术,反而是一门艺术“。他重点介绍了表征学习、交互式学习两种方法,并围绕“双塔模型/深度网络模型、多兴趣建模、长尾数据处理、外部数据丰富场景语义”这四个方向来提炼商品和用户的表征,精准识别用户需求。其中,如何处理长尾数据的工作与小红书社区理念背后的推荐机制不谋而合。