【大屏时代】首页 > 3D快报内容详情

京东生成式检索:大模型优化电商搜索体验的创新实践

2024-12-26 19:55:13 508 大屏时代

随着生成式AI技术的快速发展,电商行业在搜索引擎优化方面迎来了深刻的变革。京东电商搜索在这一领域的创新尝试,尤其是基于大语言模型的生成式检索优化,成为了提升电商用户体验的关键突破。2024年12月,京东零售技术团队发布了关于生成式检索优化的实践报告,详细介绍了如何借助大模型技术,优化搜索链路和提升商品检索的精准度,进一步推动电商搜索向智能化和个性化方向迈进。

SmLQS8cm.jpg

从传统到生成式检索:电商搜索的转型之路

在传统电商搜索中,双塔架构作为主流的检索模型,通过将用户的查询词和商品信息映射到相同的语义空间来进行检索。这种方法依赖于预先建立的索引,通过计算查询与商品信息之间的相似度(如内积或余弦相似度)来选择最相关的商品。然而,随着商品库的不断扩大,传统的双塔架构逐渐暴露出其在长尾数据和精确语义匹配方面的不足,导致检索的准确性和效率出现问题。

为了解决这些问题,京东的技术团队将生成式检索引入搜索链路。生成式检索通过语言模型实现从查询到商品信息的直接端到端映射,使得商品检索不仅仅依赖于传统的索引匹配,而是通过生成高度相关的商品列表来实现更为智能的搜索体验。这一方法的核心优势包括减少链路损耗、优化索引管理、提升模型表现以及增强知识融合能力。

生成式检索的四大核心优势

  1. 链路损耗规避:传统的多步骤检索流程存在信息衰减的问题,而生成式检索则通过一体化的方式从查询到结果展示,减少了信息流转过程中的损失。
  2. 索引管理优化:生成式检索将传统的复杂索引转变为轻量级的索引,降低了数据库管理的复杂度,节省了存储和检索开销。
  3. 模型表现升级:通过集成如GPT等大语言模型,生成式检索不仅提高了特征抽取的精度,还增强了对长尾商品描述的理解和生成能力,特别是在多样化场景下表现突出。
  4. 知识融合增强:利用大语言模型的世界知识,生成式检索不仅能够提供个性化推荐,还能够帮助解决冷启动问题,推广长尾产品。

然而,尽管生成式检索在电商搜索中展现出巨大的潜力,但在商品表示、文本长度、噪音控制等方面仍面临一定的技术挑战。

Lexical-Based 与 SemanticID-Based 方法

在生成式检索的优化实践中,京东技术团队探索了两种不同的策略:Lexical-based和SemanticID-based。

Lexical-based 方法:通过语言模型优化商品标题

Lexical-based方法基于自然语言的词汇单元进行文本表征,通过大语言模型来生成与用户查询相关的商品标题。在电商场景中,商品标题既有灵活性,又有固定性,模型需要区分关键词的顺序和品牌、型号等核心信息。因此,通过“Query2MultiSpan”策略,模型将商品标题分解为多个关键术语(Span),以此提升生成任务的准确性和效率。

该方法通过任务重定义、监督微调、偏好优化(DPO)和约束搜索(Constraint Beam Search)四个核心步骤,确保了商品标题生成的高质量和精准匹配。通过逐步优化,生成式检索能够处理复杂的商品标题结构,并显著提高了生成的相关性。

SemanticID-based 方法:通过数字编码优化推理速度

SemanticID-based方法则通过数字序列对商品进行编码,精炼文本特征,从而减少推理的存储压力。该方法通过残差量化(RQ)技术生成语义ID,能够捕捉商品信息中的复杂层次关系和语义特征。虽然这种方法具有很好的存储和推理效率,但由于高维向量的量化过程会导致“沙漏效应”——即某些特定的标记占据过多空间,导致路径稀疏和长尾分布,从而影响模型的性能。

为了优化这一问题,团队提出了两种解决方案:启发式方法去除不重要的路由节点,以及自适应调整token的分布,以有效缓解“沙漏效应”对模型性能的影响。实验表明,这些方法显著提升了生成式检索的效率和准确性,尤其在长尾查询中,模型表现得更为出色。

未来展望:生成式AI的进一步应用

随着生成式AI技术的不断发展,未来电商搜索将进一步融合大语言模型和生成式检索,提升搜索精度和智能化程度。京东计划深化SemanticID表征优化,通过更高维度的特征融合,提升模型的理解和生成能力。此外,时效特征和静态特征的结合也是未来的研究方向,如何高效融合这些特征以满足电商业务需求,将成为生成式检索技术的一大挑战。

在生成式AI的推动下,电商搜索正走向更加智能化和个性化的未来,企业将通过AI驱动的创新不断优化用户体验,提高商品匹配的精确度,提升整体运营效率。随着大模型技术的发展和应用的深化,生成式检索无疑将成为未来电商行业中的核心竞争力。


相关文章

小红书运营核心攻略:5000+篇爆文分析,揭秘成功密码

百闻不如一见:AI时代的真实体验与震撼

掌握AI提问技巧,提升工作效率,成为AI时代的驾驭者!

方法:Google SEO站内优化20条

字节跳动AI推荐算法突破95%:精准推荐背后的技术革命与挑战

谷歌SEO实战策略全解析:从思维模型到执行落地的系统性指南

相关标签: 生成式 检索 电商 模型 优化 搜索 商品 通过 AI 方法