写点什么

从顶级赛事殿堂飞向人间烟火:度小满的 NLP 技术突破能给小微企业带来什么?

用户头像
脑极体
关注
发布于: 2021 年 03 月 16 日

一家企业的技术实力究竟怎么样,国际顶级赛事的比拼,绝对是一块试金石。


最近,在微软举办的 MS MARCO 比赛中的文档排序 Document Ranking(文档排序)任务中,来自度小满金融科技的 AI-NLP 团队就刷新了记录,超越三星、微软、谷歌、斯坦福、清华大学等一众参赛者,荣登榜首(截至 2021 年 3 月 12 日)。



2018 年,度小满金融才开始独立运营,并组建了技术团队。两年多的时间,一家金融科技公司究竟是如何一步步实现了国际顶级赛事的能力飞跃?对于一家商业公司来说,学术领域的突破又意味着什么,是否能转化为真实的产业价值,改变普通人的金融生活?


这些都是“第一名”的光环背后,更值得我们关注的东西。


过去的成绩:技术基因决定故事走向


看到这个新闻,大家的第一反应可能是“是微软飘了还是谷歌提不动刀了”,这个比赛究竟是干嘛的?


简单说一下 MS MARCO 挑战赛。它是自然语言处理 NLP 领域的权威比赛,基于微软构建的大规模英文阅读理解数据集 MARCO(Microsoft MAchine ReadingCOmprehension),需要参赛者为用户输入的问题找寻到最贴切、最需要的答案,并对答案进行排序。


以这次度小满技术团队刷新纪录的文档排序 Document Ranking(文档排序)任务为例,就至少面临以下几个挑战:


首先,MARCO 数据集采用的是来自搜索引擎 BING 的用户真实搜索行为和点击日志,最大程度地模拟和还原了用户使用搜索引擎的真实场景,因此数据标注并不完全,这会直接影响模型的性能表现;



其次,MARCO 数据集规模非常大,包含数百万个问题和对应的近千万篇文档,而每一个问题都会提供多篇来自搜索结果的网页文档,相当于要在一堆文档中判断出哪一个是用户真正想要的,这需要机器对多篇文档进行综合理解才能判断出答案。


此外,MS MARCO 挑战赛由于权威性高、应用价值大,吸引非常多的工业界巨头和学术机构来参与,竞争十分激烈。要赢过来自海外谷歌、韩国三星 AI 研究院、斯坦福大学,国内的清华大学等等的其他队伍,难度更是直线上升。


而度小满 NLP 团队提交的模型,不仅以 0.416 的 eval 分数大幅领先其他团队,还在第一名的位置维持了一个多月的时间,这不得不让人好奇,他们到底是怎么做到的?


经过访谈我们得知,度小满 NLP 团队首次提出了 DML 文本排序算法,通过自主研发的自适应预训练语言模型对 query(用户搜索的真实问题)和 document 文本进行深度理解,利用了数十万数据来训练模型,经过召回、重排等多个阶段,给出最终排序。


完成突破的过程毫无疑问是充满艰苦的。度小满的技术人员透露,参赛队伍每天几乎都工作 10-15 个小时,中间做了非常多的创新和尝试,不断优化和改进算法。可话又说回来,技术创新最终比拼的还是“脑力”。度小满金融 2018 年才开始独立运营,两年内就能积累起挑战国际 AI 巨头的实力吗?



原来,度小满在成立初始,就抱着将 NLP 等科技引入金融业务当中的理想,建立起了一支 AI 团队。其中一部分人来自百度,众所周知,百度是中国 NLP 领域的一面技术旗帜,曾获得过包括国家科技进步奖在内的诸多权威奖项,这种技术基因也为度小满所沿袭。而另一方面,度小满也以十分严格的标准吸纳技术人才,建构起了一支实力强劲的技术队伍。


团队建起来了,安心支持自家的核心业务就好,为什么非得去国际赛场上“找虐”呢?


一方面,金融领域需要各种语言、语义相关的 NLP 技术和新方法来提升业务能力,来对风控模型、用户画像等进行升级,用更先进的算法来提升项目,也是度小满从成立之初就追求的。而国际顶级赛事,自然成了不容错过的绝佳“练兵场”。


桃李不言,下自成蹊。度小满在 NLP 领域的突破,看似奇异,背后却有着绵长的技术信仰、强烈的业务诉求支撑其前行。


现实的困境:NLP 如何为小微企业插上翅膀


所有过往,皆为序章。


比起度小满为什么要参加国际比赛,可能更让人难以理解的是,刷新纪录对你我普通人来说有什么意义?这种疑问,恰恰说明科技赋能产业的改造潜力远比我们想象中更深。


诗人塞缪尔·约翰逊曾说,语言是科学的唯一工具。事实上,今天度小满 NLP 领域所追寻的突破,也是在为金融科技和普通人之间搭建起一座桥梁。


度小满所提交的模型,其所具备的强有力的文本理解和匹配能力,可以轻松应用于金融、征信等多个领域中,赋能给中小企业者。



我们知道,中小企业融资难是个重要而复杂的问题。在现实中小微企业融资有着几座难以逾越的高山:


1.融资成本高:由于小微企业的经营规模小,风险系数高,一般还没有抵押物,许多金融机构不愿意放贷,或是设定更高的利息水平;


2.风控难度大:数据碎片化,缺乏长期信用评级,无法完整地了解小微企业的整体情况,判断其偿债能力,往往难以获得银行和资本市场的信任;


3.周转场景多,现金流压力大,而传统融资渠道审核慢、放款慢,着急情况下很容易被黑灰产或不良小贷机构欺骗。


在近几年的政府的工作报告中,多次提及要“帮助小微企业降低综合融资成本”。而通过公开数据我们发现,度小满针对小微企业主的年化贷款利率仅有 3.65%。而全国银行业新发放普惠性小微贷款的利率平均达到 5.93%(2020 年数据)。2020 年,度小满累积为小微企业主提供了 3000 亿元的无抵押信用贷款,人均放款额同比增加 35%。


更低的利率,不低的额度,度小满凭什么这么敢?技术,就是所有不确定性中最大的确定性。


度小满在 MS MARCO 比赛中所运用到的数据挖掘、阅读理解等 NLP 技术,就已经在度小满的小微风控模型中投入了实际应用,通过对企业公章、征信报告等非结构化信息进行深度挖掘和理解,为风控模型提供了更丰富的特征和数据维度,从而可以更高效精准地识别风险因素,提升小微企业的融资效率,帮助其抵御黑产侵害。



举个例子,在挑战赛中,度小满 NLP 团队需要解决一个技术难题:没有被点击的搜索结果有可能是错的,但也有可能是对,如果系统错过了这些没有被点击、但是正确的信息,其排序结果可能无法呈现出最佳效果。


而在小微企业融资场景中,同样存在很多这样的信息,比如有的用户并没有提供相关信息或行为,系统就需要对这些没有标注的样本,准确地判断出其风险等级。


推动 AI、NLP 技术走向产业侧,或许是提升小微企业融资效率、降低融资成本的解决方案中,最重要的议题之一,


就拿度小满来说,首先,借助 NLP 技术跨越信任的高山。对非结构化数据的挖掘,能够从经营行为、营业范围、财务年报等等更多维度的信息中加深对用户的洞察,准确判断出对方的资质,解决传统风控模型样本不足、评级不准的问题,为资本市场与小微企业之间建立信任;


其次,利用 AI 智能化地识别出更多风险指标。传统风控模型需要人根据业务需要和经验,确定哪些特征是有帮助的,而度小满借助 AI 可以让机器自动去学习相关特征,可以将数据得到充分利用,效率更高,征信结果更准确。



最后,通过技术协同来提升金融服务的可靠性与安全性。AI、NLP 领域的技术能力并没有让度小满忽视传统金融工具的价值,事实上,在让智能系统给出判断的同时,度小满也会结合一些业内成熟应用的统计方法作为参考,对小微企业的偿债能力和风险系数进行综合评估。


在度小满的努力中,自然语言的奥秘被拆解,化成千行百业的智能化升级契机,小微企业可以在复杂变幻的商业环境中更快速地获得支持、寻觅新机。这或许可以回答很多人的疑问:为什么企业要跟学术机构一起在顶级赛事上同台竞技?


答案就在于,每一次技术领域的点滴突破,都有可能改变一些行业的既有规则,化不可能为可能,助力更多小微企业飞向更光明的未来。


未来的企望:科技与产业的更多握手可能


可以看到,想要在资本市场和小微企业之间建构起信任桥梁,既需要技术积累,又要有对实体经济、小微企业业态的真实洞察与服务理念,这恰好也是度小满一直以来努力的方向。


除了前面提到的风控等场景之外,其实在小微企业的金融需求中,还存在许多痛点。比如需要反复前往网点当面证明自己的资质、等待人工审核等等,在这些环节中,度小满也从用户角度结合技术想了很多解决防范。


比如利用 OCR 技术将对方提供的电子化票据进行识别处理,在线上就能审核,实现申请秒批,有效缓解小微企业的资金压力。


借助 AI 预测,度小满也会在贷后运用机器人流程自动化(RPA)还款提醒,降低后期的运维成本,也让小微企业主避免因逾期还款而带来的负面影响。


对于合作伙伴来说,借助度小满的技术能力,可以对更多潜在优质客户进行准确识别,带来业务上的良性增长。


也可以说,度小满目前所扮演的,既是风险的守门员,也是增长的主推手,这是极为稀缺的产业角色。



从技术特征上推演,NLP 技术的潜力能够落地的场景和需求还有很多。具体要如何激发出技术的能量,这个问题就交给度小满去操心吧。对于小微企业主来说,只需要安心经营未来,不必为资金贷款终日忧心,这就是平凡至美的人间烟火味。


技术的根系越深远,越能历久弥长地将价值输送到每一个产业细枝末节当中,直至浸润每一个人的心田。


用户头像

脑极体

关注

还未添加个人签名 2020.06.12 加入

还未添加个人简介

评论

发布
暂无评论
从顶级赛事殿堂飞向人间烟火:度小满的NLP技术突破能给小微企业带来什么?