写点什么

百度搜索创新大赛,一场 2800 人的技术狂欢

作者:百度Geek说
  • 2023-12-20
    上海
  • 本文字数:3690 字

    阅读完需:约 12 分钟

百度搜索创新大赛,一场2800人的技术狂欢

导读

这是一场以“创新”为主题的科技竞赛,4 个月里 2800 人参与比拼,五大赛道充分开放 AI 应用场景。95 所 985/211 高校学子齐聚,他们在这里学习、交流、碰撞、成长。在这个瞬息万变的时代,年轻人们正主动积极与前沿科技碰撞,用自己的方式掀起了一场 AI 创新潮流。


12 月 1 日,以“新搜索·新奇点”为主题的第二届百度搜索创新大赛圆满结束,本次大赛共设置五大赛道,题目涉及语义检索、多模态、软硬结合优化等搜索核心业务场景,并鼓励参赛者洞察搜索场景需求,通过 AI 与方法创新解决问题,受到社会各界广泛关注。本文主要介绍了五大赛道冠军及作品情况。

搜索与年轻灵感的双向奔赴

本次大赛历时 4 个月,共吸引了来自 45 个省市及海外城市共 2800 余人报名参赛。参赛者中 81%为高校学生,且超过半数为研究生。 大赛组委会定向收到了 1600 余份简历投递,投递方向以机器/深度学习、AI 产品创新方向为主,专业方向与搜索需求人才的关联度较高。


与此同时,组委会在大赛期间组织了近 20 场线上/线下培训活动,有 5 万多名同学直接参与相关课程学习,赛事资料及课程触达了 100 万开发者群体。赛事活动的举办,为检索及人工智能领域的人才培养和技能强化提供助力,进一步激发学生的积极性和动力。


大赛的参赛者们经过激烈的初赛、复赛、决赛角逐,评审组针对技术含量、创新性、应用价值等维度综合考量,最终有 28 支团队突围获奖。百度集团副总裁、搜索平台负责人肖阳在颁奖典礼上表示:大语言模型的浪潮才刚刚开始,它引发的创新,一定会加速推动搜索引擎的进化。通过搜索创新大赛,我们想把搜索这样一个最大规模的 AI 应用场景充分开放,让更多年轻人的聪明才智和搜索发生碰撞。


1 搜索引擎何以提升用户极致满足?赛道一“搜索答案组织”给出了答案

赛题

如何针对用户 query,利用生成模型组织搜索引擎返回的多条检索结果,生成一个正确、丰富、语义通顺、完全满足用户需求的答案,提升搜索引擎的极致满足?


本赛道共有 719 人报名,共提交了 220 个参赛作品。获得冠军的是来自中国科学院计算技术研究所的学生团队。 该团队通过精细调整 Lora 微调 LLM 方案,精选公开问答数据增强训练,利用大模型蒸馏提升学习效果,并参照 NEFTune 进行噪声嵌入增加模型鲁棒性。这些举措使测试数据结果更符合用户需求。每一个技术选型均给出了合理动机、扎实分析和可信结论,这体现了团队对搜索答案组织问题的深度理解和出色的科研能力。



冠军团队代表李一鸣在接受采访时说到:“‘纸上得来终觉浅,绝知此事要躬行’,通过这次比赛对于 NLP 领域一知半解的我,在一步步调试优化大模型、一系列的过程中体会到了收获知识、提升技术的喜悦。通过百度搜索创新大赛这样的线下交流展示的机会,不仅能够让我们利用所学的知识,真正去解决一些工业界的现实问题,也帮助我们在未来的职业道路中有更深刻的认知。”


事实上,这也是百度搜索创新大赛举办的初衷。让每一位参赛者都能够在激烈的赛事中认清自身的优势,在赛事的实践与考验中形成属于自己的特色成果,确立未来的发展规划。

2 赛道二聚焦“基于向量交集的 TopK 搜索”,在经典问题中寻求创新

赛题

给定 doc 数据集和 query,求 query 与 doc 全集内各数据的交集个数 TopK。


本赛道共有 549 人报名,共提交了 113 个参赛作品。冠军是一名全职奶爸,武大毕业,暂时离开工作岗位,但是却始终都在关注着行业的发展。 在本次比赛中,他的机评分数和答辩评分均遥遥领先。其方案基于赛题要求,不仅实现了多线程多流并行和 batch 优化,还解决了 GPU 占用低的问题,并提出了高效 bitset 求向量交集数的方案,进一步提升了 GPU 的计算效率。此外,他还创新性提出了基于阈值迭代式求 TopK 方案,通过缩小范围来减少计算量,最后获得了 23 倍的性能提升。



冠军陈曦在接受采访时说到:“最终的性能提升并不是一蹴而就的,而是通过一个个非常小的优化积累得到的。从业内来看,面向工程优化方向的比赛是很少的。百度搜索能够为大家提供这样一个平台,真的非常难得。在 AI 大模型爆发的关键时刻,搜索技术也迎来了革新的转折点。赛题为我们描绘出了搜索技术的发展方向,让我们一起努力共同促进行业繁荣发展。”


参赛只是一种经历,但其中所涉及的一系列问题以及所取得的成果,却是值得铭记的。

3 赛道三“设计一个解决搜索用户需求的 AI 原生应用”,科技创造价值的内在逻辑已逐步显现

赛题

基于参赛者对搜索用户充分的调研,洞察用户在搜索场景的需求,结合 AI 的能力,构建 AI 应用直接有效的解决用户痛点和需求。


本赛道共有 530 人报名,共提交了 83 个参赛作品。冠军团队既有来自南京航天航空大学、中国石油大学等院校学生,也有社会开发者。 从产品经理、NLP 专硕研究生,到原型设计师到前后端工程师,都是一专多能的复合型人才。该团队的作品是“AI 简历助手”,在用户需求的挖掘和理解上表现突出,实现了在招聘场景候选人的全链路需求的满足。同时团队自身具备的较强的执行能力保障了最终呈现的效果,让人眼前一亮。在答辩的过程中充分展示了思考、创新、落地、评估等多角度的成果,得到了评委们的一致好评。



冠军团队代表李柯辰接受采访时说到:“通过此次大赛,我们对于自身未来的职业规划有了更具体的目标与方向。在参赛过程中,我们通过产品调研深入了解了人工智能前沿发展,同时体验了百度灵境平台,使我们对 AI 和 LLM 的实践应用有了更深刻的理解,也使我们对在这一领域的研究和开发工作产生了浓厚的兴趣。未来,我们将继续深入且广泛地学习,希望能在机器学习、数据科学或算法开发这些领域继续深造和成长,也希望有机会能加入百度搜索”。


以选手的思维和技术,迸发新思想,推动科技的创新,不断地更新和改进搜索的方式和技术,以更好地去适应用户以及社会的需求,这是百度搜索创新大赛的命题,更是百度搜索致力探索的方向。

4 赛道四“基于 GPU 的近似最近邻检索算法挑战”,提高搜索算法的效率和准确率

赛题

给定亿级数据集和测试集,参赛者设计自己的近似最近邻检索算法,返回每个 query 与数据集内最相似的 topK 个样本。提供统一的虚拟环境和 benchmark 框架,并以 QPS-recall 作为算法的唯一评估指标。


本赛道共有 273 人报名,共提交了 30 个参赛作品。冠军团队来自杭州电子科技大学知识图谱实验室。 团队成员曾在国内外各大编程比赛中获得过数个奖项,还在数据库国际顶级会议,如 VLDB、NeurIps 中以共同作者的身份发表了数篇向量检索方向的文章。在比赛中,该团队通过流水线技术优化算法,在比赛初期就达到 baseline 1.5 倍的分数,位居排名前列,但他们并没有就此止步。为了坐稳冠军宝座,他们不断探索算法的极限,终于在比赛中后期发现了算法的带宽瓶颈,最后通过模型索引压缩的方式将其性能进一步突破了一倍, 达到了 3 倍 baseline 分数,拿到了本赛道的冠军。



冠军代表接受采访时说到:“比赛是一种经历,经历就有收获。通过此次百度搜索大赛,我们不仅提升了自己的团队协作能力,也锻炼了我们永不放弃的精神。”


当然,这也是百度搜索创新大赛举办的目的之一,为每一位有想法的年轻人提供机会和平台。

5 AI 就可以创作出符合你心境的艺术作品?向赛道五“可控图片生成算法”挑战!

赛题

以文生图任务为核心,基于扩散技术框架,通过训练方式和 prompt 工程等手段优化自己的生成模型。


本赛道共有 390 人报名,共提交了 50 支参赛作品。冠军团队来自北京理工大学,成员主要由两名博士和三名硕士组成。 他们的目标是充分理解用户需求,生成相关性高、美观度高、清晰度高和创新性高的图像。该团队使用了多个方法实现算法:第一是通过大量数据收集、清洗、标注、对齐和增强,去挖掘和爬虫下来自己大规模的数据集,并对百度官方发布数据集进行大规模清洗。在此基础上,进行了多 LORA 模型混合使用,并得到了初步效果。此外,重新使用自身采集数据进行训练,与多 LORA 模型融合。在不断摸索与尝试下,控制变量,细察原因,最后取得了第一名,效果相比于基础模型提升了 5 倍。



冠军代表接受采访时说到:“通过比赛,我们深切感受到团队协作的重要性,通过不断地头脑风暴,才能逐步实现 1+1 大于 2 的效果。同时我们也意识到,尽管现在有很多开源模型可以使用,但思维应该是创新性的,不能止于此。我们应该求真务实、脚踏实地,一步步实现自己的算法,实现自己的目标。变革,无时无刻不在发生。就像本届大赛主题 ‘新搜索 新奇点’,它强调的是搜索技术的不断发展和创新,也代表着人们对于搜索的需求和方式在不断变化。

与优秀 AI 人才一起成就卓越

百度搜索创新大赛,是国内覆盖面最大、影响最广、成果最多、规格最高的搜索专业赛事,被誉为“搜索界的奥林匹克”,但这也不止是一次竞赛。大赛是个起点,我们希望寻找 AI 创新千里马,与年轻人一起拥抱灵感,共赴理想;大赛是个平台,我们希望与跨领域、跨学科的青年人才和创新团队思想碰撞,为技术基因注⼊新的活力。在这个过程中,我们会加强对搜索产品技术的布道,加强对优秀参赛作品的跟踪支持,为创新成果转化拓宽渠道、提供帮助。


AI 创新潮流已经掀起,与优秀人才一起成就卓越,才是大赛的价值所在。


——END——


推荐阅读


揭开事件循环的神秘面纱


百度搜索展现服务重构:进步与优化


百度APP iOS端包体积50M优化实践(七)编译器优化


百度搜索内容HTAP表格存储系统


大模型时代,“人人可AI”的百度开发者平台长什么样?

发布于: 刚刚阅读数: 4
用户头像

百度Geek说

关注

百度官方技术账号 2021-01-22 加入

关注我们,带你了解更多百度技术干货。

评论

发布
暂无评论
百度搜索创新大赛,一场2800人的技术狂欢_人工智能_百度Geek说_InfoQ写作社区