写点什么

人工智能快速发展趋势下,中国该如何应对?

作者:蓝海大脑GPU
  • 2023-03-23
    北京
  • 本文字数:23609 字

    阅读完需:约 77 分钟

人工智能快速发展趋势下,中国该如何应对?
小logo.png

人工智能 | 深度学习 | GPT-4

文心一言 | 机器学习 | ChatGPT


近日,随着 ChatGPT-4 和百度的文心一言的出台,人工智能技术得到迅猛发展。人工智能(AI)是一种模拟人类智能的技术,它可以通过学习和自我改进来执行各种任务。ChatGPT 是一种基于 AI 的聊天机器人,它可以与人类进行自然语言交互,回答问题和提供信息。


人工智能是通过模拟人类大脑的方式来工作的。它使用算法和数据来学习和自我改进,以便更好地执行任务。人工智能可以分为弱人工智能和强人工智能。弱人工智能是指只能执行特定任务的 AI,例如语音识别或图像识别。强人工智能是指可以像人类一样思考和决策的 AI。


2023 年政府工作报告指出“过去五年极不寻常、极不平凡,我们经受了世界变局加快演变、新冠疫情冲击、国内经济下行等多重考验,经济社会发展取得举世瞩目的重大成就。”聚焦到科技领域,“全社会研发经费投入强度从 2.1%提高到 2.5%以上,科技进步贡献率提高到 60%以上。科技创新成果丰硕,人工智能领域的创新成果也不断涌现。”


纵览人工智能产业近年发展,虽然一定程度上突破了深度学习等各类算法革新、技术产品化落地、应用场景打磨、市场教育等难点;但如今也仍需致力解决可信、业务持续、盈利、部署的投资回报率等商业化卡点。


聚焦于 2022 年,这一历史上极为重要一年中我国 AI 产业参与者的特征表现、探讨 AI 产业在我国经济发展中的价值与地位、洞察各技术赛道参与者的发展路径与产业进阶突破点。



人工智能产业发展环境演变


一、人工智能参与社会建设的千行百业——价值性、通用性、效率化为产业发展战略方向


人工智能已成为推动产业发展的主流趋势,其产品形态和应用边界不断拓宽,包括软件服务、云服务、硬件基础设施等形式,应用场景涵盖消费、制造业、互联网、金融、元宇宙和数字孪生等领域。据艾瑞预测,到 2022 年,我国人工智能产业规模将达到 1958 亿元,同时,人工智能产学研界在通用大模型、行业大模型等方向上取得了一定突破,促进技术通用性和效率化生产。AI 技术的商业价值塑造、通用性提升和效率化应用是其助力产业发展、社会进步和自身造血的关键。



二、企业积极部署 AI 战略以实现业务增长——对 AI 应用的比率及数量持续走高; AI 提升营收能力进步


纵观近五年来的 AI 技术商业落地发展脉络,产品及服务提供商围绕技术深耕、场景创新、商业价值创造、精细化服务不断努力;需求侧企业也在从单点试验、数据积累到战略改革的发展路线上,与 AI 技术逐渐深度绑定。AI 成为企业数字化、智能化改革的重要抓手,也是各行业领军企业打造营收护城河的重要方向。


麦肯锡 2022 年对企业应用 AI 技术的调研表明:相较于 2017 年的 20%,2022 年企业至少在一个业务领域采用 AI 技术的比率增加了一倍多,达到 50%;应用的 AI 产品数量也从 2018 年的平均 1.9 个增加到 2022 年的 3.8 个。除了应用数量上的提升,AI 产生的商业价值也不断增长,企业部署 AI 的动力显著。


埃森哲商业研究院针对中国 250 家领先企业的调研显示,2018-2021 年,企业营收中“由 AI 推动的份额”平均增加了一倍,预计到 2024 年将进一步增加至 36%。落地 AI 应用对企业业务运营的商业价值与战略意义越来越明确。


三、城市算脑建设推动区域发展与产业升级——各地加速布局区域智算中心,夯实 AI 算力基础设施


基于对支撑 AI 应用及研发的智能算力需求扩大、以及全国算力枢纽一体化和“东数西算”的工程建设方向。近两年来,各地对人工智能计算/超算中心(智算中心)的关注度和投资增多。智算中心是指基于最新 AI 理论,采用领先的 AI 计算架构,提供 AI 应用所需算力服务、数据服务和算法服务的公共算力新型基础设施。目前,我国有超过 30 个城市建设或提出建设智算中心,其中已有近 10 个城市的智算中心投入运营,为当地各行业领域提供算力支撑。智算中心建设对区域经济发展和产业升级有明显推动作用,同时可提高城市治理智能化水平和城市竞争力。从政府投资角度看,智算中心产业发展尚处于初期阶段,建设、运营、应用推广与生态建设、节能环保要求等投入较大,需结合地方财政能力合理评估,根据实际需求适度超前部署机柜。



四、政策引导解决 AI 重大应用和产业化问题——着力打造人工智能重大场景,形成可复制推广的标杆应用


尽管我国在数据、算力、算法及模型的基础层资源与研究积累日益丰富,为开展下游人工智能场景创新应用打下了坚实基础,但在应用场景上仍存在“对场景创新认识不到位,重大场景系统设计不足,场景机会开放程度不够,场景创新生态不完善”等问题。为此,2022 年,我国陆续出台一系列指导意见及通知,持续加强对人工智能场景创新工作的统筹指导,规范与加强人工智能应用建设,实现 AI 与实体产业经济的深度融合。其中,政策引导是解决 AI 重大应用和产业化问题的重要手段之一。着力打造人工智能重大场景,形成可复制推广的标杆应用,是政策引导的重要方向之一。通过政策引导,加强对人工智能场景创新工作的统筹指导,规范与加强人工智能应用建设,将有助于实现 AI 与实体产业经济的深度融合。



五、科技伦理治理持续引导 AI  “向善”——全球 AI 伦理治理迈入法治时代,我国积极倡导框架规范


随着人工智能与社会产业的融合应用,其带来的安全、法律和伦理方面的风险不容忽视。2022 年,科技伦理治理的约束力和影响力持续提升。从全球范围来看,主要发达国家和地区的人工智能伦理治理从政策建议正式进入法律范畴,相关立法逐步完善,国际组织也在凝聚共识的基础上,启动大规模深入研讨。而在中国,在吸取发达国家治理经验和思路的基础上,2022 年首次将人工智能伦理治理上升到国家政策层面,提出科技伦理治理的原则和行动方案,具体治理举措将会不断细化和完善。同时,我国也在科技伦理问题上通过国际组织积极表态,增强国际影响力和话语权,防止在科技伦理问题上陷入被动。



六、人工智能产业投资热度仍在——融资向中后期过渡,视觉赛道上市浪潮涌动


人工智能产业一直是投资市场的热门领域,而最近的数据显示,这一趋势仍在持续。统计数据显示,Pre-A~A+轮人工智能产业创投轮次数量最多,但整体而言,Pre-B~B 轮+及以后轮次的人工智能产业创投数量逐渐成长,资本流向稳定发展企业,融资逐渐向中后期过渡。此外,视觉赛道上市浪潮也在涌动,商汤科技、格灵深瞳、云从科技、创新奇智等企业都已实现上市目标。虽然 2022 年我国人工智能产业资本市场投资金额整体缩水,但投资标的更加丰富,孵化出 AIGC、元宇宙、虚拟数字人等新投资赛道,认知与决策智能类企业也吸引更多关注,智能机器人、自动驾驶两类无人系统是融资的热门赛道。



七、区域与独角兽企业融资分布特点——北上广与江浙地带融资密度高;独角兽企业聚集于自动驾驶、医疗、工业、芯片赛道


从区域分布看,统计时间内融资事件集中分布于北上广、江浙地带。北京的融资事件密度最高,融资事件数量占全国的 31.1%。除北上广、江浙地带以外区域融资密度较低且分散,相应融资事件数量占全国不超过 10%。这可能是因为北上广、江浙地带人工智能人才密集、具备产业园区进行产学研成果转化、风投机构密布等因素,为孵化创投项目提供了有利条件。


从独角兽企业融资情况看,统计时间内独角兽企业占比 6.7%,但对应的融资金额比例高达 32.3%。独角兽融资事件集中分布于自动驾驶、医疗、工业、芯片行业赛道,分别孵化出 L3 及以上智能驾驶解决方案、AIDD 药物研发服务、工业机器人、云端大规模训练或端侧推理芯片等产品或服务。随着市场资金向独角兽企业持续流入,AI 产业未来或将逐步出现一批明星上市企业。



八、人工智能产业市场规模——2022 年市场平稳向好,市场规模近 2000 亿元


根据艾瑞的定义,我国人工智能产业规模涵盖 AI 应用软件、硬件及服务,主要包括 AI 芯片、智能机器人(商用)、AI 基础数据服务、面向 AI 的数据治理、计算机视觉、智能语音与人机交互、机器学习、知识图谱和自然语言处理等核心产业。预计到 2022 年,中国人工智能产业规模将达到 1958 亿元,年增长率为 7.8%,整体平稳向好。2022 年的业务增长主要依靠智算中心建设以及大模型训练等应用需求拉动的 AI 芯片市场、无接触服务需求拉动的智能机器人及对话式 AI 市场,除此之外的增长动力将在第三章详细阐述。目前,中国大型企业基本都已在持续规划投入实施人工智能项目,未来随着中小型企业的普遍尝试和大型企业的稳健部署,在 AI 成为数字经济时代核心生产力的背景下,AI 芯片、自动驾驶及车联网视觉解决方案、智能机器人、智能制造、决策智能应用等细分领域增长强劲。预计到 2027 年,人工智能产业整体规模可达 6122 亿元,2022-2027 年的相关 CAGR 为 25.6%。



人工智能的底层基础


一、AI 芯片


1、AI 芯片针对机器学习算法设计开发,广泛应用于云、边、端各类场景


AI 芯片(AI Chip)是一种专门用于处理人工智能相关的计算任务的芯片。它的架构是专门为人工智能算法和应用进行优化的,能够高效地处理大量结构化和非结构化数据。AI 芯片能够高效地支持视觉、语音、自然语言处理等智能处理任务。目前,AI 芯片主要分为 GPU、FPGA、TPU、IPU、DPU、NPU 等类型。AI 芯片广泛应用于云端、边缘端、终端等各种场景。云端 AI 芯片具有高性能特征,终端 AI 芯片具有低功耗和高能效特性,而边缘端 AI 芯片的性能介于云端和终端之间。



2、AI 芯片性能指标评价评价 AI 芯片性能需重点关注 TOPS/W、时延、功耗等相关指标 


目前,评价 AI 芯片性能的指标主要包括 TOPS、TOPS/W、时延、成本、功耗、可扩展性、精度、适用性、吞吐量和热管理等。其中,TOPS/W 是用于度量在 1W 功耗的情况下,芯片能进行多少万亿次操作的关键指标。近年来,MIT、Nvidia 等研发人员开发了专门的芯片软件评价工具,如 Accelergy(评估芯片架构级能耗)和 Timeloop(评估芯片运算执行情况),对于 AI 芯片的性能做出了系统、全面评价。此外,MLPerf 是由来自学术界、研究实验室和相关行业的 AI 领导者组成的联盟,旨在“构建公平和有用的基准测试”,可用于衡量深度学习软件框架、AI 芯片和云平台性能。



3、AI 芯片:云端场景数据中心


1)GPU 具备矩阵和大规模并行计算优势,适合数据中心场景


CPU 是一种通用处理器,它由控制单元(负责指令读取和指令译码)、存储单元(包括 CPU 片内缓存和寄存器)以及运算单元(ALU 约占 20%CPU 空间)三个主要模块组成。然而,由于成本、功耗、技术难度和算力瓶颈等问题的限制,目前还没有出现适用于 AI 高算力要求的主流 CPU 产品。


相比之下,GPU 是一种由大量核心组成的大规模并行计算架构,它具有较多的运算单元(ALU)和较少的缓存(cache),是专门为同时处理多重任务而设计的芯片。GPU 拥有良好的矩阵计算能力和并行计算优势,能够满足深度学习等 AI 算法的处理需求,因此成为主流云端 AI 芯片。



2)张量计算单元是 GPU 进行深度学习运算的核心组成部分


英伟达 A100 芯片是一种并发多核处理器,由多个 SM 单元(Streaming Multiprocessors,流式多处理器)构成。不同的 SM 单元共享 L2 Cache 存储资源,以便进行数据访问。该芯片采用安培架构,拥有 128 个 SM 核,其中 SM 结构是芯片架构升级的核心。此外,英伟达 GPU 架构中还设置了 Tensor Core,这是专为深度学习矩阵运算设计的张量计算单元,也是英伟达 GPU 系列深度学习运算加速的核心。Tensor Core 主要处理大型矩阵运算,执行一种专门的矩阵数学运算,适用于深度学习和某些类型的高性能计算。其功能是执行融合乘法和加法的运算,其中两个 4*4 FP16 矩阵相乘,然后将结果添加到 4*4 FP32 或 FP64 矩阵中,最终输出新的 4*4 FP32 或 FP64 矩阵。



4、边缘端场景—AIoT。边缘端集成 AI 芯片可以实现本地化数据的实时处理 


AIoT 是一种融合了人工智能和物联网技术的新型智能化系统,它可以实现万物智联,涉及到安防、移动互联网等多种场景。在智慧安防方面,由于终端摄像头每天产生大量的视频数据,若全部回传到云数据中心将会对网络带宽和数据中心资源造成极大占用。为了解决这个问题,可以在终端加装 AI 芯片,实现数据本地化实时处理,即仅将经过结构化处理、关键信息提取后带有关键信息的数据回传云端,从而大大降低网络传输带宽压力。目前,主流解决方案是在前端摄像头设备内集成 AI 芯片,在边缘端采用智能服务器级产品,后端在边缘服务器中集成智能推理芯片。为了推动这项技术的发展,国内外企业正在加大对边缘端 AI 视觉处理芯片的研发和投入,相关芯片产品如英伟达 Jetson AGX Xavier、地平线旭日 3、华为海思 Hi3559A V100 等。



5、终端场景—智能驾驶。随着智能驾驶等级的提高,技术不断迭代促使车用 AI 芯片性能逐步增强


SAE(国际自动机工程师学会)将自动驾驶分为六个级别,从 L0(非自动化)到 L5(完全自动化)。每一级别需要强大的算力进行实时分析、处理大量数据和执行复杂的逻辑运算,对计算能力有着极高的要求。L1(驾驶员辅助)和 L2(部分自动化)需要的计算能力相对较低,而 L3(有条件自动化)需要约 250TOPS 的计算能力,L4(高度自动化)需要超过 500TOPS,L5(全场景自动驾驶)需要超过 1,000TOPS。随着芯片设计和制造工艺的提高,车用 AI 芯片正朝着高算力、低功耗的方向发展。



6、终端场景—智能驾驶。预计到 2025 年,全球车用 AI 芯片市场规模将突破 17 亿美元 


随着汽车控制方式逐渐由机械式转向电子式,每辆汽车对车用 AI 芯片需求提升,带动车用 AI 芯片长期发展。据市场研究机构 Yole 预测,到 2025 年,全球车用 AI 芯片产量将达到 67.19 亿颗,市场规模将达到 17.76 亿美元,年复合增速分别达到 99.28%和 59.27%。此外,车用 AI 芯片逐渐往高能效方向发展。例如,英特尔计划于 2022 年推出 EyeQ Ultra 自动驾驶汽车芯片,该芯片基于经过验证的 Mobileye EyeQ 架构而打造,含有 8 个 PMA、16 个 VMP、24 个 MPC、2 个 CNN Accelerator 视觉处理单元(VPU),通过优化算力和效能以达到 176TOPS,可满足 L4 自动驾驶场景。该产品将于 2023 年底供货,预计在 2025 年全面实现车规级量产。



7、终端场景—消费电子。2026 年全球消费电子 AI 芯片市场规模将突破 55 亿美元


AI 芯片在图像识别、语音识别和快速建立用户画像等方面具有重要作用。根 据 Yole 预测,2026 年全球消费电子 AI 芯片市场规模将达到 55.8 亿美元,其中笔记本电脑、平板电脑和智能手机 AI 芯片渗透率将分别达到 100%、100%和 91%, 未来全球消费电子 AI 芯片市场规模和渗透率呈现逐步增长态势。



二、深度学习开源框架


深度学习开源框架是一种标准接口、特性库和工具包,用于设计、训练和验证 AI 算法模型。它们集成了数据调用、算法封装和计算资源的使用,是 AI 开发的重要工具。目前,国际上广泛使用的深度学习开源框架包括 Google TensorFlow、Facebook PyTorch、Amazon MXNet 和微软 CNTK 等。在中国,也有一些深度学习开源框架,如百度 PaddlePaddle、华为 MindSpore 等。这些框架已经初步应用于工业、服务业等场景,服务 200 余万开发者。



三、数据服务以 AI 训练与调优为目的,涉及数据采集、标注与质检等环节


人工智能数据服务是指提供数据库设计、数据采集、数据清洗、数据标注和数据质检等服务,以满足客户的需求。这个服务流程是围绕客户需求展开的,最终产出的产品是数据集和数据资源定制服务,为 AI 模型训练提供可靠、可用的数据。随着短视频、直播、社交电商等应用的快速兴起,全球数据量也在快速增长。根据 IDC 的预测,全球数据量将从 2015 年的 9ZB 增加到 2025 年的 175ZB,这为人工智能技术的持续迭代提供了重要的底层基础。



四、云计算服务显著降低人工智能算法开发成本,缩短产品开发周期


由于人工智能的开发和应用对于算力和数据有较大需求,云计算服务可以为开发者提供智能服务器集群等强大算力设施的租用。同时,云计算服务还可以直接提供已经训练好的人工智能功能模块等产品,通过多元化的服务模式,降低开发者的开发成本和产品开发周期,为客户提供 AI 赋能。


例如,亚马逊 SageMaker 可以提供图片/图像分析、语音处理、自然语言理解等相关服务。使用者无需了解参数和算法即可实现功能的应用。随着底层技术的发展,IBM 推出深度学习即服务(DLaaS),借助此项服务用户可以使用主流框架来训练神经网络,如 TensorFlow、PyTorch 及 Caffe。用户无需购买和维护成本高昂的硬件,每一个云计算处理单元都遵循简单易用的原则而设置,无需用户对基础设施进行管理。用户可以根据支持的深度学习框架、神经网络模型、训练数据、成本约束等条件进行挑选,然后 DLaaS 服务会帮助完成其余的事情,提供交互式、可迭代的训练体验。



人工智能的核心技术


机器学习作为人工智能技术的核心,近年来实现了明显的突破。它与计算机视觉、自然语言处理、语音处理和知识图谱等关键技术紧密结合,相关机器学习算法主要应用于图像分类、语音识别、文本分类等相关场景中。这些应用场景的不断发展和完善,不仅提升了人工智能技术的整体应用效果,也使得人工智能技术在金融、医疗、交通等各领域实现了广泛的应用。



一、机器学习


机器学习是实现人工智能的核心方法,专门研究计算机如何模拟/实现生物体的学习行为,获取新的知识技能,利用经验来改善特定算法的性能。根据学习范式的不同,机器学习可划分为有监督学习、无监督学习、强化学习三类。有监督学习是指通过给计算机提供标注数据,让计算机学习如何将输入映射到输出的过程。无监督学习则是指在没有标注数据的情况下,让计算机自行学习数据的特征和结构。强化学习则是通过让计算机在与环境的交互中不断试错,从而学习如何最大化奖励的过程。深度学习是机器学习算法的一种,具有多层神经网络结构,其在图像识别、语音处理等领域取得了划时代的成果。



1、有监督学习:从有标注训练数据中推导出预测函数 


有监督学习是机器学习任务的一种类型,其目的是从给定的训练数据集中学习出一个函数(模型参数),以便在新的数据到来时,能够根据该函数预测结果。训练集中包括输入和输出,也称为特征和目标,其中目标是由人工标注的。有监督学习的过程一般包括确定训练类型、收集训练集、确定特征提取方法、选择算法、训练算法、评估准确性六个环节。通过已有的训练样本去训练得到一个最优模型,再利用该模型将所有的输入映射为相应的输出,从而实现分类目的。



1)逻辑回归


逻辑回归是一种用于学习某事件发生概率的算法,它可以对某个事件的发生或不发生进行二元分类。逻辑回归使用 Sigmoid 函数来输出结果,其输出结果的范围在 [0,1] 之间。逻辑回归的主要目标是发现特征与特定结果可能性之间的联系。例如,我们可以使用逻辑回归来根据学习时长来预测学生是否通过考试,其中响应变量为“通过”和“未通过”考试。



2)支持向量机:以间隔最大化为基准学习远离数据的决策边界


支持向量机(Support Vector Machine,SVM)是一种基于间隔最大化的决策边界算法。其主要目的是学习一个尽可能远离数据的决策边界,以确保分类的准确性。在 SVM 中,支持向量是决策边界的重要数据点,其位置对于分类结果具有重要的影响。


当训练样本线性可分时,SVM 采用硬间隔最大化的方法学习线性可分支持向量机;当训练样本近似线性可分时,SVM 采用软间隔最大化的方法学习线性支持向量机。在解决线性不可分问题时,SVM 引入核函数,将数据映射到另一个特征空间,然后进行线性回归。通过采用核方法的支持向量机,原本线性不可分的数据在特征空间内变为线性可分,从而实现了分类的准确性。



3)决策树:以树结构形式表达的预测分析模型


决策树是一种树状结构,用于对数据进行划分。它通过一系列决策(选择)来划分数据,类似于针对一系列问题进行选择。一棵决策树通常包含一个根节点、若干个内部节点和若干个叶节点。每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。


决策树的生成是一个递归过程。在决策树基本算法中,有三种情况会导致递归返回: 

  • 当前节点包含的样本全属于同一类别,无需划分。

  • 当前属性集为空或是所有样本在所有属性上取值相同,无法划分。

  • 当前节点包含的样本集合为空,不能划分。

这些情况都是决策树生成过程中的终止条件。



4)随机森林:利用多决策树模型,提高模型预测精度


随机森林是一种分类器,它利用多棵决策树对样本进行训练和预测。在随机森林算法中,每个决策树的输出被收集起来,通过多数表决的方式得到最终的分类结果。这种方法类似于找人商量事情,不只听一个人的意见,而是在听取多人意见后综合判断。随机森林的每棵树都是通过以下步骤生成的:

  • 从训练集中随机且有放回地抽取 N 个训练样本,作为该树的训练集,重复 K 次,生成 K 组训练样本集;

  • 从 M 个特征中随机选取 m 个特征,其中 m<<M;

  • 利用 m 个特征实现每棵树最大程度的生长,并且没有剪枝过程。

这种方法可以有效地避免过拟合问题,并且在处理大型数据集时表现良好。



5)朴素贝叶斯是常用于自然语言分类问题的算法


朴素贝叶斯是一种基于概率进行预测的算法,主要用于分类问题。在实践中,它被广泛应用于文本分类和垃圾邮件判定等自然语言处理领域。具体来说,该算法通过计算数据为某个标签的概率,将其分类为概率值最大的标签。例如,假设训练数据类别为电影(包括那部让人感动的电影名作重映、华丽的动作电影首映和复映的名作感动了世界),训练数据类别为宇宙(包括沙尘暴笼罩着火星、火星探测终于重新开始和 VR 中看到的火星沙尘暴让人感动),而验证数据为“复映的动作电影名作让人感动”。在这种情况下,朴素贝叶斯算法将通过计算“复映的动作电影名作让人感动”属于电影或宇宙的概率,来判断该数据属于哪个类别。以下为朴素贝叶斯算法过程:




2、无监督学习:对无标签样本进行学习揭示数据内在规律


无监督学习是一种机器学习方法,其主要目的是在没有标记的训练数据的情况下生成模型。这种方法通常用于缺乏足够的先验知识难以进行人工标注类别或进行人工类别标注成本高的情况下。无监督学习的目标是通过对无标签样本的学习来揭示数据的内在特性及规律。该方法主要涉及聚类和降维问题。聚类问题包括 K-means 聚类、概念聚类、模糊聚类等算法,其目标是为数据点分组,使得不同聚类中的数据点不相似,同一聚类中的数据点则是相似的。降维问题主要是主成分分析、线性判别分析、多维尺度分析等算法,其中主成分分析将数据中存在的空间重映射成一个更加紧凑的空间,此种变换后的维度比原来维度更小。无监督学习适用于发现异常数据、用户类别划分、推荐系统等场景。



1)策略梯度:有效处理高维及连续动作空间问题


策略梯度(Policy Gradient,PG)是一种基于策略优化的强化学习算法。在强化学习中,机器通过判断在特定状态下采取不同动作所得环境回报大小来评价采取该动作的优劣。PG 的核心思想是,当一个动作的环境回报较大时,增加其被选择的概率;反之,减少该动作被选择的概率。每个动作选择概率由神经网络决定,以参数化神经网络表示策略(记为𝜋𝜃)。通过调整参数𝜃,使总体回报期望值最大化,从而实现最优策略的学习。最大化问题可转化为求取回报函数关于参数𝜃的梯度,一般使用梯度上升算法,即为策略梯度算法。为提高算法的收敛性和效率,通常采取引入基线(baseline)、修改因果关系(当前策略不影响该时间点之前的回报)和引入回报权重等方式。



2)时序差分学习:结合蒙特卡罗方法与动态规划特点,提升策略优化速度 


时序差分学习(Temporal Difference,TD)是一种无需具体环境模型,可直接从经验中学习的方法。它结合了动态规划和蒙特卡罗方法的优点,能够在每执行一步策略后即进行 Q 函数更新,而不必等到完成一个采样轨迹后才进行更新。根据算法中采样策略和更新 Q 值策略是否相同,TD 学习可分为同策略算法(on-policy)和异策略算法(off-policy)。同策略代表算法为 Sarsa,其行为策略和目标策略均为贪心策略;异策略代表算法为 Q-Learning(或称 SarsaMax),其行为策略为贪心策略,而目标策略为确定性策略。Sarsa 收敛速度较快,但可能无法得到全局最优解;Q-Learning 可找到全局最优解,但收敛速度较慢,因此需要根据具体问题选择合适的算法。



3)深度 Q 网络:神经网络与 Q-Learning 结合,有效应对复杂状态空间 


深度 Q 网络(Deep Q-network, DQN)是一种基于深度学习的 Q-Learning 算法,由 Google DeepMind 团队于 2013 年提出,并在 2015 年进一步完善。传统的强化学习算法(如动态规划、蒙特卡罗方法、时序差分学习等)的状态均为离散、有限的,并使用查找表存储状态价值或 Q 函数。然而,现实生活中的状态多为连续的,即使离散化后状态空间(系统全部可能状态的集合)仍十分庞大,因而产生内存不足、表格搜索耗时过长等问题。DQN 则通过 DNN、CNN 或 RNN 等神经网络对价值函数做近似表示,利用经验回放方式替代查找表,令最终结果无限逼近全局最优解,有效解决 Q-Learning 状态空间有限问题。



4)Actor-Critic 算法:综合策略梯度与 Q-Learning 优势,提高学习效率和准确性


Actor-Critic 算法(AC)是一种强化学习算法,也被称为“演员-评论家”算法。它由两个神经网络组成:策略网络 Actor 和评价网络 Critic。Actor 使用基于策略优化的算法,如策略梯度,来决定在当前状态下采取何种动作。Critic 使用基于值优化的算法,如 Q-Learning,对 Actor 所选动作进行评分,Actor 根据 Critic 评分改进动作选择概率。AC 算法结合了策略梯度和 Q-Learning 算法的优点,既可以做到单步更新,又可以扩展至连续状态空间,提高策略更新效率同时解决高偏差问题。目前,AC 算法已经发展出了 Advantage Actor-Critic(A2C)以及 Asynchronous advantage Actor-Critic(A3C)等改进型,进一步提高了策略准确性,降低了内存需求。



3、迁移学习:将知识由源域迁移至目标域,提高机器学习效率 


迁移学习(Transfer Learning, TL)是一种机器学习方法,其核心目标是将已训练好的模型参数迁移到新的模型来帮助新模型训练。这种方法可以将知识从源域迁移到目标域,让机器也可以做到“触类旁通”。迁移学习的主要优点是节省模型训练时间,且在目标域训练数据不足时,模型仍能取得较好的性能。迁移学习的训练框架可以概括为:

1)选择源模型,从可用模型中挑选出预训练模型;

2)重用模型,在目标域中使用源模型进行训练;

3)调整模型。模型可以在目标数据集中对输入-输出进行选择性微调,以让其适应目标任务。

实现迁移学习的方式主要包括样本迁移、特征迁移、模型迁移。目前,迁移学习主要应用在计算机视觉、自然语言处理等领域。



4、联邦学习:以分布式机器学习方式,有效化解信息孤岛问题 


联邦学习(Federated Learning,FL)是由 Google 公司首次提出的一种学习机制,它允许多个数据持有方协同训练模型,而不需要共享数据,仅在中间阶段交换训练参数。根据数据分布情况,联邦学习可分为横向联邦学习、纵向联邦学习和联邦迁移学习。联邦学习的基本流程包括:

1)客户端从服务器下载全局模型;

2)训练本地数据得到本地模型;

3)上传模型更新信息;

4)中心服务器加权聚合本地模型,得到更新后的全局模型。

通过多次迭代,联邦学习可以得到趋近于集中式机器学习结果的模型。联邦学习是一项新兴技术,在物联网、智慧医疗、金融风控、智慧城市等领域都有广阔的应用前景。



二、深度学习


1、神经网络:具有适应性简单单元组成的广泛并行互联网络 


神经网络是一种由数千甚至数百万个紧密互连的简单处理节点组成的模型。它主要包括输入层、中间层/隐藏层和输出层。输入层接收输入数据,中间层使用非线性函数对输入数据进行计算,输出层使用非线性函数对中间层数据进行计算,最终输出结果。神经网络可以用于回归,但主要应用于分类问题。通过设置中间层的数量和层的深度,神经网络可以学习更复杂的边界特征,从而得出更加准确的结果。



2、卷积神经网络:以图像识别为核心的深度学习算法


卷积神经网络(Convolutional Neural Network,CNN)是一种由数千甚至数百万个紧密互连的简单处理节点组成的神经网络结构,主要用于处理图片、视频等类型数据。该网络结构主要包括输入层、卷积层、池化层、全连接层和输出层。早在 1980 年,日本科学家福岛邦彦就提出了一个包含卷积层、池化层的神经网络结构。随后,Yann Lecun 将 BP 算法应用到该神经网络结构的训练上,形成了当代卷积神经网络的雏形。在 1998 年,Yann LeCun 及其合作者构建了更加完备的卷积神经网络 LeNet-5,并在手写数字的识别问题中取得了成功。此外,1998 年 Wei Zhang 提出了第一个二维卷积神经网络:平移不变人工神经网络(SIANN),并将其应用于检测医学影像。



卷积层、池化层、全连接层和输出层是卷积神经网络中的四个主要组成部分。在卷积层中,输入的图片会被转化成 RGB 对应的数字,并通过卷积核进行卷积操作,以提取输入中的主要特征。池化层的作用是压缩特征映射图尺寸,从而降低后续网络处理的负载。全连接层计算激活值,并通过激活函数计算各单元输出值,常用的激活函数包括 Sigmoid、tanh、ReLU 等。输出层使用似然函数计算各类别似然概率。



3、循环神经网络:用于处理序列数据的神经网络


循环神经网络(Recurrent Neural Network, RNN)是一种神经网络,其输入为序列数据,例如时间序列数据、信息性字符串或对话等。该网络在序列的演进方向进行递归,并通过链式连接所有节点(循环单元)。RNN 在语言建模和文本生成、机器翻译、语音识别、生成图像描述和视频标记等领域得到广泛应用。



4、图神经网络:用于处理图结构数据的神经网络


图神经网络(Graph Neural Networks,GNN)是一种将图数据和神经网络进行结合的新型机器学习方法。它能够在图数据上进行端对端的计算,具备端对端学习、擅长推理、可解释性强的特点。目前,图神经网络已经发展出多个分支,主要包括图卷积网络、图注意力网络、图自编码器、图生成网络和图时空网络等。


图神经网络的训练框架如下:首先,每个节点获取其相邻节点的所有特征信息,将聚合函数(如求和或取平均)应用于这些信息。聚合函数的选择必须不受节点顺序和排列的影响。之后,将前一步得到的向量传入一个神经网络层(通常是乘以某个矩阵),然后使用非线性激活函数(如 ReLU)来获得新的向量表示。


图神经网络在许多领域的实际应用中都展现出强大的表达能力和预测能力。例如,在物理仿真、科学研究、生物医药、金融风控等领域,图神经网络已经被广泛应用。它不仅能够对图数据进行分类、回归和聚类等任务,还能够进行图生成、图表示学习和图推理等任务。因此,图神经网络被认为是一种非常有前途的机器学习方法。



5、长短期记忆神经网络:在 RNN 中加入门控机制,解决梯度消失问题


长短期记忆神经网络(Long Short-Term Memory,LSTM)是一种特殊的循环神经网络(RNN),它可以有效地解决传统 RNN 在训练中出现的“长期依赖”问题。在训练时间加长和层数增多的情况下,传统 RNN 很容易出现梯度爆炸或梯度消失问题,导致无法处理长序列数据。LSTM 由状态单元、输入门、遗忘门和输出门组成,通过这些门的控制,可以实现长期记忆与短期记忆的结合,从而达到序列学习的目的。LSTM 的应用领域非常广泛,包括文本生成、机器翻译、语音识别、生成图像描述和视频标记等。



6、自编码器:通过期望输出等同于输入样本的过程,实现对输入样本抽象特征学习 典型深度无监督学习模型包括自编码器、受限波尔兹曼机与生成对抗网络。


自编码器(Autoencoder,AE)是一种神经网络模型,由编码器和解码器两部分组成。编码器将高维输入样本映射到低维抽象表示,实现样本压缩和降维;解码器将抽象表示转换为期望输出,实现输入样本的复现。自编码器的输入和期望输出均为无标签样本,隐藏层输出则作为样本的抽象特征表示。自编码器通过最小化输入样本与重构样本之间的误差来获取输入样本的抽象特征表示,但无法保证自编码器提取到样本的本质特征。为避免这个问题,需要对自编码器添加约束或修改网络结构,进而产生稀疏自编码器、去噪自编码器、收缩自编码器等改进算法。自编码器凭借其优异的特征提取能力,主要应用于目标识别、文本分类、图像重建等领域。



7、生成对抗网络:通过对抗训练机制使得生成器生成以假乱真的样本


生成对抗网络(GAN)是一种通过对抗训练机制对两个神经网络进行训练的方法,以避免反复应用马尔可夫链学习机制带来的配分函数计算,从而明显提高应用效率。GAN 包含一组相互对抗的模型,即判别器和生成器。判别器的目的是正确区分真实数据和生成数据,使得判别准确率最大化;而生成器则是尽可能逼近真实数据的潜在分布。类比于造假钞的人和警察的博弈,生成器类似于造假钞的人,其制造出以假乱真的假钞;而判别器则类似于警察,尽可能鉴别出假钞。在这个博弈中,双方不断提升各自的能力,以达到更高的准确率和更逼真的生成数据。



三、计算机视觉


1、U-Net:在有限数据集图像分割方面独具优势


U-Net 是一种由 Olaf Ronneberger、Philipp Fischer 等人于 2015 年首次提出的神经网络结构,最初应用于医学图像分割领域。该网络结构可视化的结果形如字母“U”,由左侧的收缩路径和右侧的扩展路径两部分组成。相较于传统模型,U-Net 在架构和基于像素的图像分割方面更具优势,且在有限数据集图像上更加有效。在生物医学图像领域,U-Net 通过弹性变形方法帮助扩充数据集,从而提高学习效果。此外,U-Net 在卫星图像遥感和无人驾驶系统等相关领域也有应用。因此,图像分割不仅限于医学图像领域,其在其他领域也有广泛的应用。



2、R-CNN:基于深度学习模型的目标检测算法


目标检测算法主要分为两类:R-CNN 和 Yolo。R-CNN(Region-CNN)最早将深度学习应用在目标检测任务中。目标检测任务是计算机视觉中的重要组成部分,其在人脸识别、自动驾驶等领域有着广泛应用。传统目标检测方法大多以图像识别为基础,在图片上使用穷举法选出所有物体可能出现的区域框,对这些区域框提取特征并使用图像识别方法分类,得到所有分类成功的区域后,通过非极大值抑制算法得到输出结果。R-CNN 遵循传统目标检测的思路,但在提取特征这一步,将传统特征换成深度卷积网络提取的特征。虽然 R-CNN 准确度高,但速度慢。相比之下,Yolo 算法速度快但准确性相对低。



3、Yolo:采用 CNN 模型实现端到端的目标检测算法 


以往的目标检测算法通常采用滑动窗口的方式,将检测问题转化为图像分类问题,但存在计算量过大等弊端。为了解决这个问题,Yolo 算法应运而生。Yolo 算法直接将原始图片分割成互不重合的小方块,然后通过卷积产生特征图。具体而言,Yolo 算法采用单独的 CNN 模型实现端到端的目标检测,包含 24 个卷积层和 2 个全连接层。卷积层主要使用 1x1 卷积来做通道缩减,然后紧跟 3x3 卷积。卷积层和全连接层采用 Leaky ReLU 激活函数,最后一层采用线性激活函数。Yolo 算法的优点在于采用 CNN 实现检测,训练和预测都是端到端过程,因此该算法比较简洁且速度快。同时,由于 Yolo 是对整张图片做卷积,因此在检测目标时拥有更大的视野且不容易对背景误判。然而,Yolo 算法的缺点是其在物体的宽高比方面泛化率相对较低,无法定位不寻常比例的物体。



四、自然语言处理


1、自然语言处理:用于分析、理解和生成自然语言,便于人机间交流


自然语言处理(NLP)是一种通过对词、句子、篇章进行分析,理解其中的人物、时间、地点等内容,从而支持一系列核心技术的技术。这些技术包括跨语言的翻译、问答系统、阅读理解、知识图谱等,可以应用于搜索引擎、客服、金融、新闻等领域。例如,在机器翻译中,输入的源语言句子经过词法和句法分析得到句法树,然后通过转换规则将源语言句子句法树进行转换,生成目标语言的句法树,最后得到目标语言句子。



2、Word2Vec:以分布式方法表示词向量,有效降低维度,丰富词语间关系


Word2Vec,即 Word to Vector,是一种高效的词向量训练模型,由 Google 团队 Tomas Mikolov 等人于 2013 年提出。在自然语言处理任务中,需要将单词或词语转化为数值向量(词向量)以供计算机识别,这一过程称为词嵌入。早期的 One-Hot 编码方法简单易懂、有较好的鲁棒性,但存在维度爆炸问题,且无法表示词语相关关系。Word2Vec 使用分布式词向量表示方法,有效降低词向量维度,丰富单词间关系。Word2Vec 主要使用 CBOW(连续词袋)模型和 Skip-Gram(跳词)模型两种预测方法。前者根据上下文预测当前词,适用于小语库;后者根据当前词预测上下文,在大型语料库中表现更好。



3、Seq2Seq:基于循环神经网络输出非固定长度语句 


Seq2Seq(Sequence to Sequence)是一种神经网络模型,由 Google Brain 和 Yoshua Bengio 团队在 2014 年分别独立提出。它的主要应用场景是解决机器翻译任务中输出语句长度不确定的问题。Seq2Seq 模型基于 RNN 或 LSTM 等神经网络算法,由编码器(Encoder)和解码器(Decoder)两部分构成。编码器负责将输入序列压缩为指定长度的语义向量,而解码器则根据语义向量生成指定序列。这种模型可以实现序列信号转化为无固定长度序列输出,而传统的 RNN 只能将序列信号转化为固定长度序列输出。除了机器翻译,Seq2Seq 还被应用于文本摘要、图像描述文本生成、语音识别等场景。



4、门控卷积神经网络:应用于语言建模,以并行计算方式加速学习过程


门控卷积神经网络(Gated Convolutional Neural Networks):由 Facebook 团队 Yann 等人在 2016 年提出,使用基于门控机制的卷积神 经网络处理语言建模问题。与循环神经网络(RNN)相比,门控卷积神经网络可实现并行计算,有效缩短运行时长。由于卷积神经网络 不存在梯度消失问题,因而门控卷积神经网络中的门控机制更加简化,仅需保留输出门用于判定信息是否传递至下一层,可实现更高精 度及更快收敛速度。目前,门控卷积神经网络模型已被应用于光学字符识别(OCR)、机器阅读理解等多个领域。



五、语音处理


1、语音识别:将语音自动转换为文字的过程


语音识别(Speech Recognition,SR)是将语音自动转换为文字的过程,目的是将语音信号转变为计算机可读的文本字符或命令。动态规划匹配方法是最具代表性的研究成果之一,该方法能够将输入语音与样本语音的各自特征,按时间轴进行伸缩、匹配。随着时间的推移,基于隐马尔可夫模型的统计建模方法逐渐取代了基于模版匹配的方法,基于高斯混合模型-隐马尔可夫模型的混合声学建模技术推动语音识别技术的蓬勃发展。到 21 世纪初,深度学习技术在语音识别中发挥重要作用,使语音识别的研究获得突破性进展。语音识别技术主要包括特征提取、模式匹配和模型训练三个方面。特征提取是将语音信号转化为计算机能够处理的语音特征向量,常用的特征参数有基音周期、共振峰、短时平均能量或幅度等;模式匹配是根据一定的准则,使未知模式与模型库中的某一个模型获得最佳匹配的过程;模型训练是提取语音库中语音样本的特征参数作为训练数据,合理设置模型参数初始值,对模型参数进行重估,使识别系统具有更佳的识别效果。



2、基于深度神经网络-隐马尔可夫模型的声学模型成为主流声学建模技术


声学模型承载着声学特征与建模单元之间的映射关系,其中建模单元包括音素、音节、词语等,其单元粒度依次增加。然而,若采用词语作为建模单元,每个词语的长度不等,导致声学建模缺少灵活性,很难充分训练基于词语的模型。相比之下,词语中包含的音素是确定且有限的,利用大量的训练数据可以充分训练基于音素的模型。因此,目前大多数声学模型一般采用音素作为建模单元。


混合声学模型是比较经典的声学模型,通常可以分为两种:基于高斯混合模型-隐马尔可夫模型的声学模型和基于深度神经网络-隐马尔可夫模型的声学模型。后者具有两方面优势:一是深度神经网络能利用语音特征的上下文信息;二是深度神经网络能学习非线性的更高层次特征表达。因此,基于深度神经网络-隐马尔可夫模型的声学模型已成为目前主流的声学建模技术。



3、语音合成:将任意输入的文本转换成自然流畅的语音输出


语音合成(Text To Speech, TTS)是一种将文本转换为语音的技术,赋予机器像人一样自如说话的能力,是人机语音交互中重要的一环。语音合成系统分为文本前端和声学后端两个部分。文本前端主要负责在语言层、语法层、语义层对输入文本进行预处理,如为文本添加韵律信息,并将文本词面转化为语言学特征序列。声学后端可以分为声学特征生成网络和声码器。声学特征生成网络根据文本前端输出的信息产生声学特征。声码器利用频谱等声学特征,生成语音样本点并重建时域波形。近年来出现的端到端语音合成系统则将声学后端合并为一个整体,可直接将语言学特征序列,甚至字符直接合成语音。


目前,语音合成技术已经广泛应用于银行、医院信息播报系统、自动应答呼叫中心等领域。这些应用场景需要机器能够快速、准确地将大量的文本信息转化为语音,以提供更好的用户体验。随着技术的不断发展,语音合成系统的语音质量和性能也在不断提高,未来将会有更多的应用场景涌现。



六、知识图谱:利用图模型来描述知识和建模万物关系的语义网络


 知识图谱是一种结构化描述客观世界中概念、实体之间关系的方式,旨在提高搜索引擎的能力,提高用户搜索质量,改善用户搜索体验。其最常见的表示形式是 RDF(三元组),即“实体 x 关系 x 另一实体”或“实体 x 属性 x 属性值”集合,其中节点代表实体或概念,边代表实体/概念之间的各种语义关系。知识图谱的构建过程旨在让计算机更好地理解各行业领域信息,使其具备人的认知能力。基本构建流程包括知识抽取(如实体抽取、关系抽取)、知识融合(如数据整合、实体对齐)、知识加工(如知识推理)等。由于图数据相对于传统的关系型数据具有更强大的表达能力,善于处理大量、复杂、互联、多变的网状数据,因此图数据的计算与推理逐渐成为知识图谱的重要研究任务之一。



人工智能产业企业案例


一、格灵深瞳


1、以三维视觉技术为核心,致力开发高价值 AI 应用场景


格灵深瞳成立于 2013 年,专注于人工智能领域,致力于将先进的计算机视觉、大数据分析、机器人和人机交互技术与应用场景深度融合,以“让计算机看懂世界,让 AI 造福人类”为愿景,为智慧金融、体育健康、轨交运维、城市管理、商业零售、元宇宙等领域提供人工智能产品及解决方案。


格灵深瞳在三维计算机视觉技术方面处于行业头部水平,未来主要应用场景的人工智能产品均依托三维视觉技术,可实现对场景中人员位置和姿态、三维物体的精准检测和识别。2022 年,格灵深瞳成功上市科创板,成为一家备受关注的人工智能赛道上市企业。



2、轨交运维领域及体育健康领域解决方案展示


格灵深瞳推出了两款智能解决方案,分别是列车智能检测解决方案和校园体育训练考试产品。列车智能检测解决方案由智能巡检机器人、车辆 360 动态图像监测系统和深瞳鹰眼列车智能检测系统组成。通过对列车各零部件的多维数据的高质量采集与智能分析,实现自动化的故障或缺陷检测,助力轨道交通更加的智慧高效。校园体育训练考试产品面向“教、练、考、赛”四大场景,对人员过程性数据进行采集分析,精准评估辅助决策,构建综合性学生体能提升路径。包括搭载视觉交互体能训练系统的体能训练交互屏、智能视觉训练考核分析服务、体育大数据分析平台等软硬件产品,助力智慧校园体育建设。



二、百应科技


百应科技是一家专注于对话式 AI 技术的产品服务商,致力于为客户提供全面的智能对话、语音和虚拟人等核心领域的全栈技术能力。我们推出了六大 AI 对话机器人应用,并根据政企客户在沟通运营方面的需求,提供了丰富的产品方案。我们已经深度布局金融、政务、零售三大行业,并在教育、电商、医美、家居等 20 多个行业领域为客户提供高易用性的场景化落地方案。



三、94AI


九四智能是一家成立于 2018 年的智能运营产品和服务提供商,以 AI 语音技术为核心,聚焦语音识别与合成、NLP、数据挖掘等关键技术。结合团队在多行业的精细化运营实操经验,为客户提供智能用户运营 SaaS 平台,应用于金融营销、催收、电商大促等多种用户运营场景。九四智能自主研发的语音半合成技术让 AI 语音流畅自然高度拟人,配合行业针对性话术策略,能有效提升业务效果。在人机交互方面,九四智能根据业务场景需要提供 AI 与人工相结合的解决方案及全套调度运营服务,赋能企业的智能化转型和业绩提升。目前,九四智能在金融、电商零售、教育、大健康、政府/事业单位等多个行业拥有众多客户。


四、思必驰


1、专注人性化语音交互,布局全链路对话式 AI 产品方案


思必驰是一家专业的人工智能平台企业,致力于通过智能对话系统定制开发平台和人工智能语音芯片,提供软硬件结合的人工智能技术与产品服务,实现普适的智能人机信息交互。公司主要业务包括智能人机交互软件产品、软硬一体化人工智能产品以及对话式人工智能技术服务,覆盖智能家电、智能汽车、消费电子等物联网领域,以及数字政企类客户为主的生产、生活和社会治理领域(包括金融服务、交通物流、地产酒店、政务民生、医疗健康)等行业场景。



2、深化车联网领域人机交互服务,推动汽车产业智能化升级


思必驰是一家专注于车联网领域的企业,致力于为用户提供智能化交互服务,以大幅提升行车的安全性、便利性和娱乐性。同时,思必驰不断创新出行陪伴方式,推动汽车产业走向高端化和绿色化发展。该公司基于自研全链路语音交互技术,为两轮车和汽车前装、后装设备提供语音技术 SDK、天琴车载语音助手(国内版/海外版)以及软硬一体化解决方案,以满足主机厂、车厂和 Tier1 厂商对语音交互的需求。此外,思必驰还提供场景化大数据运营服务能力,以推进车联网智能化升级。目前,思必驰已成功与哪吒汽车、小鹏汽车、理想汽车、北汽集团、一汽奔腾、上汽通用五菱、雅迪等企业合作,推出包括哪吒汽车 V/U/S、小鹏汽车 P7/P5/G3、理想汽车 ONE/L7/L8/L9、宏光 MINIEV 系列、雅迪 VFLY 流星隼 N 系列等多款车型。



五、中关村科金


1、以对话式 AI 为技术底座,打造企业级 AI 应用场景,激发产业新动能


中关村科金成立于 2014 年,总部位于北京,在上海、重庆、深圳、成都等地设有分支机构。作为对话式 AI 技术解决方案提供商,中关村科金是国家高新技术企业、中关村高新技术企业、北京市专精特新“小巨人”企业。公司坚持自主研发,在人工智能、大数据、实时音视频等前沿技术领域形成多项核心能力。其中,人脸识别、声纹识别等人工智能前沿技术成果屡获国际比赛大奖。中关村科金以“得助”系列智能产品为支撑,围绕智能营销、智能运营、智能分析、智慧能效等场景为企业打造端到端的场景解决方案体系,成功服务于金融、零售、教育、医疗、政务、智能制造等行业 900 余家头部企业的 200 多个应用场景,激发产业新动能。



2、人机协同的会话式营销,助力企业业务价值全面提升


中关村科金以对话式 AI 技术为核心,为企业提供全域营销解决方案。该解决方案依托人机协同的会话式营销,围绕客户全生命周期,打造具有数据认知能力、自动化执行能力的营销解决方案。通过预训练对话语言模型、知识中台、会话分析和流程挖掘等认知技术的加持,企业全域营销解决方案充分运用客户对话和行为数据,驱动引流获客、新客促转、存客复购、售后服务、需求挖掘和企业内部运营优化闭环,帮助企业实现持续增长。该解决方案已应用于金融、零售、政务、教育、医疗、汽车、快消等多个行业,助力企业业务价值全面提升。



六、竹间智能


1、运用 NLP、知识工程与情感计算技术,服务企业数智化变革


竹间智能是一家以 NLP、知识工程与情感计算为核心的人工智能公司,凭借自主研发的差异化 AI 技术,创建了三大平台级产品——Sales AI、Service AI 及 Knowledge AI,为客户服务、销售、培训、企业内部服务、知识管理、数据分析、企业运营等丰富场景提供全方位的数智化转型解决方案。为了将 AI 能力快速且低成本地整合到客户业务中,竹间智能全力推动成熟产品上云,打造 Emoti Cloud 竹间云,提供一站式 AI-as-a-Service 产品服务。同时,竹间智能积极布局大语言模型与生成式 AI 领域,旨在通过大小模型的 NLP 双引擎驱动来加速技术升级、产品迭代和服务模式变革,以更强技术力及产品力推动企业数智化变革的深化开展。至今,竹间智能已服务数百家大客户,覆盖金融、企业服务、制造、零售、政务、能源、医药等多个行业领域。



2、与某国内头部证券商强强联手,打造企业级服务操作系统


竹间智能结合 Emoti-X、Emoti-V 和 Gemini 三大主力产品为基础,为某国内头部证券商成功打造贯穿企业内外部的智能化场景应用方案。该方案包括智能客服机器人、知识工程建设和 RPA 故障智能推荐解决方案等多个方面。


首先,竹间智能为客户建设了智能客服机器人,提供智能知识辅助、培训、质检等服务,问题有效拦截率超过 70%。同时,竹间智能将对话机器人渗透延伸到企业内部 HR、运营、托管等部门机构,实现全方位的智能化服务。


在知识工程建设方面,竹间智能基于 Gemini 认知知识平台,为客户提供结构化数据和非结构化数据的图谱构建能力,优化了企业 RPA 业务流程,实现 RPA 故障智能推荐解决方案。这些技术手段的应用,大大提高了企业的效率和智能化水平。


未来,竹间智能将与客户展开更深入合作,在客服营销方面深入私域流量运营管理,在知识管理方面打造 Gemini 企业级知识工厂。通过认知智能实现数据的实时可见、风险提前预判和解决方案推荐,让 AI 大脑实现更多高价值业务场景的转型赋能。这将为客户带来更多的商业价值和竞争优势。



七、第四范式


1、SHIFT 数字化转型平台与服务,支撑企业全方位数字化


当前,企业数字化已经不仅仅是大数据建设和业务创新的试点,而是从战略、策略、执行和评价的全流程数字化。为此,第四范式运用智能决策技术,开发了端到端的企业级人工智能产品,推出 SHIFT 数字化转型咨询与服务,旨在解决企业智能化转型过程中面临的效率、成本、价值等问题。


在战略数字化阶段,第四范式为企业提供数字化战略咨询服务,帮助企业识别核心竞争力指标;在策略数字化阶段,为企业构建科学策略决策体系,通过智能决策技术,基于实验、迭代、分而治之的科技运营体系方法,实现北极星指标体系中各个指标的优化迭代;在执行数字化阶段,围绕企业中各部门共识,制定各项指标的数据采集规则,构建一整套新的经营管理平台,并不断完善前置系统的布局情况;在评价数字化阶段,第四范式提供树状指标体系明确各部门工作重心及协同关系,通过适合的量化数值进行策略有效性评估,形成端到端数字化的系统以及人机协同的智能决策能力,构建了企业核心竞争优势。



2、SHIFT 全栈产品与服务,助力营销拓客与电力管理数字化


在商业营销领域,第四范式基于北极星指标方法论,依托 AI 技术算法的融合机器学习、大规模运筹优化等技术,为来伊份公司提供智能供应链解决方案。该解决方案从品类规划、价盘管理、智能全网预测、补货和调拨等关键场景切入,根据时效优先、成本优先、最小包裹量等履约规则确定提升策略,通过反复实验、快速迭代提升策略的有效性,从而实现供应链体系的自动化智能决策。


在能源领域,第四范式与健新科技(第四范式子公司)为桂冠电力公司提供智能数字化转型服务。利用数据支撑决策、驱动运营、优化创新,打造“数字桂冠”生态云平台,实现电厂无人化、平台生态化、业务数字化、运营智慧化,推动桂冠电力数字化转型升级。



八、蜜度


1、语言智能科技企业,为政企赋能增效提供数智化解决方案


蜜度是一家专注于人工智能技术研究的企业,致力于为数字政府、数字营销、数字媒体、数字城市的建设提供全方位的语言智能应用产品和解决方案。在跨模态检索(CMR)、多语言校对(MLC)、计算机视觉(CV)、自然语言处理(NLP)、内容生成(AIGC)、知识图谱(KG)等前沿技术领域深耕十余年,针对当前海量多模态数据,蜜度发挥自身优势,打通多模态数据壁垒,自主研发 MiduCMR、MiduMLC、MiduCV、MiduNLP、MiduAIGC、MiduKG 六大语言智能能力引擎,构建智能检索、智能校对、智能生成三大核心应用,打造由 11 款跨领域多功能语言智能软件所组成的产品矩阵,为 30000+家政企机构提供服务。在互联网跨模态信息检索和智能校对 SaaS 服务细分领域,2021 年市场占有率超过 15%,深度赋能企业和政府数字化、智能化转型升级。



2、校对通:依托昇腾 Atlas 200 边缘计算,打造办公桌上的专属 智能校对产品


蜜度校对通是一款智能校对工具,以中文语言特点和使用习惯为基础,结合行业先进的自然语言处理、知识图谱与图像识别等技术,实现中文文本错误和语义关系的自动发现与纠正处理。该工具基于百亿级训练语料,能够有效提高文本校对的效率和准确性。随着互联网信息规模的不断扩大,文本信息中产生错误和风险的概率也不断提高。为了满足智能化办公需求,蜜度联手华为昇腾,发布校对通 AI-Box 作为集软硬件为一体的本地化智能校对解决方案。该方案完整移植了 SaaS 版本检测功能,兼顾了检测类型、检测速度、检测精度和内容的隐私性。除了基础文字标点差错外,重点建设了时政内容安全模块,为涉密办公场景校对提供专属解决方案。



九、数之联


1、数据+AI 算法+多场景应用,助力政企客户构建完整数智体系


数之联成立于 2012 年,是一家专注于“智能制造”与“智慧城市”领域的大数据、AI 解决方案提供商。凭借 20 多年的行业经验,数之联形成了成熟完善的数据治理、数据分析与可视化平台能力,以及自主可控的计算机视觉、数据挖掘、NLP 等 AI 算法能力,构建了一体化云原生平台。同时,数之联还推出了面向工厂和政法机关各类场景的成熟解决方案,能够快速帮助客户搭建从底层数据到上层应用的全流程数智化体系。目前,数之联已经服务了京东方、四川省高级人民法院、国家电网等上百家政府、企事业单位。



2、AI 视觉质检—良率分析,打造闭环式解决方案


目前,工业品质检主要采用人工和传统机器视觉两种方式。然而,人工质检不稳定、精度低,传统机器视觉质检准确率低,需要人工复检等问题导致工业质检成本居高不下,质检数据留存差,难以发挥作用。为了解决这些问题,数之联提出了 AI 工业视觉质检+良率分析一体化解决方案,能够实现图像采集、智能检测分类、复判到数据分析的全流程闭环。 


该方案中,AI Camera 是软硬一体的视觉检测分类产品,采用自主生产的 AOI(自动光学检测)设备,配合自研的 ADC 缺陷识别与分类软件,内置多种针对性 AI 算法,能够实现在产线的在制、成品等状态的外观表面的毫秒级实时拍出、精确检测一体化,准确率达到 99%以上,同时支持设备与产线改造两种部署方式。 


在此基础上,数之联 YMES 良率分析系统通过对产线人、机、料、法、环、测、时各维度数据及具体 case 的综合分析,快速精准进行问题溯源,指导工厂有效改善良率。此外,数之联具备面板、家电、汽车、PCBA 等多行业的 know-how 及工程化经验,能够针对客户个性需求提供定制服务的同时确保快速上线。



十、中科闻歌


1、构建 2+N 数据与决策智能产品体系,服务近千家政企客户


中科闻歌是一家人工智能认知与决策智能平台型企业,专注于多模态(文本、图片、视频、语音)融合语义分析智能技术的研发。我们致力于构建具有自主知识产权的 DIOS 数据操作系统及决策智能引擎,以应对互联网数据指数级增长的挑战。随着半结构化数据(主要包括文本、图像、音频、视频)在互联网中的应用越来越广泛,多模态大数据分析技术市场潜力巨大。作为数据与决策智能服务商,中科闻歌依托多模态人工智能技术谱系,搭建了闻海数据操作系统和天湖决策智能引擎两大核心技术底座。我们面向媒体、金融、治理等细分领域,构建了 2+N 数据智能产品体系,为政企客户智能决策提供有利支撑。



2、发力多模态大数据,深耕媒体、社会治理与金融领域 


“泛媒体+多模态+大数据”技术将颠覆当前单一模型对应单一任务的人工智能研发范式,成为不同领域的共性平台技术。中科闻歌深耕多模态大数据领域多年,产品应用广泛。针对媒体宣传行业中跨模态数据量增多的现状、多语言信息整合的需要以及智能化选题与创作的诉求,中科闻歌推出红旗融媒体平台,推动“融媒体+行业”智能化转型。同时,针对目前信息监控与治理的难点,中科闻歌推出闻海·晴天多模态内容监测分析平台,监控 100+风控场景、实现实时预警与一键视频溯源等功能,满足更高效的跨模态信息监测分析要求。此外,数智金融平台以天镜金融知识大脑为核心,提供一站式、网络化、全周期、智能化产业链及投研分析、企业金融风险监测分析等金融科技服务,为金融行业提供更加智能化的支持。



人工智能的发展趋势


人工智能(AI)是一种模拟人类智能的技术,它可以通过学习、推理和自我改进来执行任务。随着技术的不断发展,人工智能的应用范围也在不断扩大。


一、更加智能化


人工智能的发展趋势之一是更加智能化。随着机器学习和深度学习技术的不断发展,人工智能系统可以更好地理解和处理自然语言、图像和声音等信息。这将使得人工智能系统能够更好地执行复杂的任务,如自动驾驶、语音识别和自然语言处理等。


二、更加普及化


人工智能的发展趋势之二是更加普及化。随着人工智能技术的不断成熟和普及,越来越多的企业和组织开始将人工智能应用于其业务中。例如,人工智能可以帮助企业提高生产效率、优化供应链和提高客户满意度等。


三、更加个性化


人工智能的发展趋势之三是更加个性化。随着人工智能技术的不断发展,人工智能系统可以更好地理解和分析用户的行为和偏好。这将使得人工智能系统能够更好地为用户提供个性化的服务和建议,如个性化推荐、智能客服和智能家居等。


四、更加安全化


人工智能的发展趋势之四是更加安全化。随着人工智能技术的不断发展,人工智能系统的安全性也成为了一个重要的问题。人工智能系统需要具备强大的安全性能,以保护用户的隐私和数据安全。例如,人工智能系统需要具备防止黑客攻击和数据泄露的能力。


人工智能趋势下

中国该如何做?


随着人工智能在数据、算力、算法、工具、模型等方面的技术推进, AI 已实现由实验室到产业应用的层级跃升,更广范围、更深层次地影响着中国的经济发展与生产生活方式变革。 


作为可承担发展引擎功能的新兴技术,AI 已成为国际科技竞争的焦点。 顺应生成式 AI、预训练大模型、国产 AI 芯片商业化落地、虚拟数字人等技术热潮,中国将持续加强人工智能布局,发挥政府及市场的积极性,共同推动普惠 AI 高质量发展。 


如何在 AI 新一轮发展热潮中抢抓机遇,是 AI 产业链各环节企业关注的 核心议题。从业务持续的角度考虑,把握技术变革与产品应用的融合 界限,致力解决质量、ROI、安全可信等核心瓶颈;根据企业产业链角色和应用场景特点,定位各类型厂商的差异化路径深耕实践,或是 AI 企业的制胜之路。


在这个全球竞争激烈的时代,中国必须积极应对人工智能的发展趋势,加强技术研发和人才培养,推动人工智能技术的应用和创新,以实现经济社会的可持续发展。


一、加强人工智能技术研发


人工智能技术的发展需要大量的技术研发和创新。中国应该加强人工智能技术的研究和开发,提高技术水平和创新能力。同时,还应该加强与国际先进技术的交流和合作,吸收和借鉴国际先进技术,推动人工智能技术的发展。


二、加强人才培养


人工智能技术的发展需要大量的高素质人才。中国应该加强人才培养,培养一批具有国际水平的人工智能专家和技术人才。同时,还应该加强人才引进和留用,吸引国内外优秀的人工智能人才来到中国,为中国的人工智能事业做出贡献。


三、推动人工智能技术的应用和创新


人工智能技术的应用和创新是人工智能发展的关键。中国应该积极推动人工智能技术的应用和创新,加强与各行业的合作,推动人工智能技术在各个领域的应用,为经济社会的发展做出贡献。


四、加强人工智能技术的监管和管理


人工智能技术的发展也带来了一些风险和挑战。中国应该加强人工智能技术的监管和管理,制定相关的法律法规和标准,保障人工智能技术的安全和可靠性,防止人工智能技术的滥用和误用。


总之,人工智能技术的迅猛发展为中国带来了巨大的机遇和挑战。中国应该积极应对人工智能的发展趋势,加强技术研发和人才培养,推动人工智能技术的应用和创新,加强人工智能技术的监管和管理,以实现经济社会的可持续发展。

用户头像

还未添加个人签名 2021-11-25 加入

深度学习GPU液冷服务器,大数据一体机,图数据库一体机

评论

发布
暂无评论
人工智能快速发展趋势下,中国该如何应对?_蓝海大脑GPU_InfoQ写作社区