AIGC 产业研究报告 2023——分子发现与电路设计篇
易观:今年以来,随着人工智能技术不断实现突破迭代,生成式 AI 的话题多次成为热门,而人工智能内容生成(AIGC)的产业发展、市场反应与相应监管要求也受到了广泛关注。为了更好地探寻其在各行业落地应用的可行性和发展趋势,易观对 AIGC 产业进行了探索并将发布 AIGC 产业研究报告系列。
报告以内容生成模态作为视角,涵盖了 AIGC 在语言生成、图像生成、音频生成、视频生成、三维生成、分子发现与电路设计(图生成)等领域的技术发展、关键能力、典型应用场景,我国 AIGC 产业在商业化落地过程所面临的挑战和对前景的展望。希望通过梳理和把握 AIGC 产业的发展脉络,为各领域的应用开发者和使用者提供参考。
定义
分子发现与电路设计是指利用机器学习、深度神经网络等技术学习分子与集成电路的结构、规则与性质,并生成具有相似结构、符合特定规则并具有目标性质的分子与集成电路。
在分子发现与集成电路设计的工作中,由于分子构象与集成电路设计方案存在 10 的几十次到几百次方的可能性,且集成电路设计中包含 NP 难题与 NP 完全难题,因此利用人工智能辅助分子发现与集成电路设计工作可以有效提高效率。
细分类型
在分子发现中,目前分子生成所用的分子表示方法主要分为一维表示法、二维表示法与三维表示法。一维表示法是将分子表示为一维的字符串;二维表示法是将分子以图数据的形式进行表示;三维表示法是表示分子的三维结构。如甲基苯以 SMILES 标准的一维表示为 Cc1ccccc1,以 SELFIES 标准表示为[C][C][=C][C][=C][C][=C][Ring1][=Branch1],而二维表示与三维表示如下图所示:
集成电路设计工作可以分为布局与布线两大类。
布局是指安置集成电路中不同电路部件在设计平面图中的物理位置,具体来说是给定一组集成电路的部件,其中包括标准单元、宏模块与逻辑门等,与这些部件的宽度、高度等特性信息,也需要给出这些部件的引脚位置与部件间的连接关系信息,基于以上信息分配部件物理位置,使部件间互不重叠。由于布局工作绝大多数是在平面内设计,因此布局结果与分子的二维表示相似。
布线是指设计各部件间的连接电路,具体来说是在完成布局后,部件的引脚位置已经 确定,且部件间的连接关系也已经确定,在布局时预留的布线区内,根据部件间的连接关系以及如布线总长度最小、部件间的时序关系等要求,在不违反布线规则的前提下设计部件间的连接电路。部分布线工作与布局工作同样在平面内完成,但部分集成电路采用多层金属线路布局,因此此类布线工作具备三维性质。
布局与布线工作也可再次细分为全局布局与细节布局、全局布线与细节布线工作。全局布局与全局布线工作均为完成整体的布局与布线,而细节布局与细节布线工作均是在全局工作的基础上,进行错误的修改修正,并根据更加细节的布局布线要求与目标优化全局工作的结果。
主流模型
目前分子发现的生成方法主要分为深度生成方法与组合优化方法,深度生成方法将各种分子的可能性视为连续的概率并利用生成模型对分子数据进行概率建模,而组合优化方法则是将分子根据不同性质离散化并根据预期生成分子的性质选择生成策略。
由于原理不同,深度生成方法需要大量数据训练,但所需人工调整较少;而组合优化方法所需训练数据量小,但应用时需要大量人工调整。而两种方法所采用的模型与算法也不同,不过在实际工作中,两种方法以及各自的算法与模型可以结合应用。
目前集成电路设计的布局工作相关研究可以分为机器学习布局优化、人工智能布局决策与考虑布线的布局决策三类。机器学习布局优化是指在不改变传统布局算法的同时,将算法与机器学习结合以增加计算效率;人工智能布局决策是指利用人工智能技术实现布局的设计;考虑布线的布局决策是因为布局会影响布线工作,因此在进行布局设计的同时考虑布线的合理性。
而布线工作的相关研究可以分为人工智能布线优化与人工智能布线决策。人工智能布线优化是指利用人工智能预测布线设计是否存在问题并找出问题点;人工智能布线决策是指利用人工智能技术实现布线设计。
目前多数相关研究仅针对布局或布线中的一项工作,但也有部分相关研究希望同时解决布局与布线问题。
影响模型应用能力的关键因素
● 生成质量
对于分子发现和集成电路设计模型来说,生成质量是决定其应用能力的核心因素。
目前分子发现模型的评价体系有 22 项评价标准用以评价生成分子的有效性、与训练数据分布的相似性、差异性、原创性、稳定性、分子属性等;
与之相似的,集成电路设计模型的评价标准也在不同大小的训练数据集与在各类小样本任务中通过评价设计的布线长度、布线拥塞情况、计算效率、设计面积、设计功耗等方面评估集成电路设计质量。
但评价结果只是对生成的分子与集成电路设计的理论评价结果,实际应用结果则需要在完成分子与集成电路的生产制造后才能进行真实的评价,但对于分子发现与集成电路设计来说进行实际应用验证的周期通常非常长,而实际应用结果则是对模型生成质量的真正考验。
● 适用性
分子发现和集成电路设计模型需要适用于特定的设计目的。分子可以分为有机分子与无机分子、大分子与小分子,应用领域也包括化学药物、化学制剂、生物药物、新材料等等,而分子发现模型需要结合产业的设计目的对模型进行重新训练、修改架构、手动调参、规划发现原则等以适用于产业要求。
集成电路可以分为数字集成电路、模拟集成电路与混合集成电路,射频集成电路、传感器集成电路、通用集成电路,根据设计目标与应用场景的不同,仅数字集成电路就包括 CPU、GPU、TPU、NPU 等不同类型的电路,且数字集成电路还包括 x86、ARM、ASIC、RISC-V 等等不同的指令集架构,因此集成电路设计模型同样需要结合产业的设计目的对模型进行重新训练、修改架构、手动调参、规划发现原则等以适用于产业要求。
典型产业应用场景
● 分子发现
新型药物设计:人工智能分子设计可用于设计新型药物,以加速药物研发过程。通过分析大量的分子数据,人工智能算法可以预测分子的属性、相互作用和生物活性,从而帮助研发人员设计更有效的药物。
材料科学:人工智能分子设计可以用于材料科学研究,例如设计新型催化剂、电池材料、光电材料等。通过人工智能算法的预测和优化,可以大大提高材料性能和生产效率。
食品和农业:人工智能分子设计也可以应用于食品和农业领域,例如设计更健康的食品添加剂、农药和肥料。通过分析分子结构和性质,人工智能算法可以优化食品添加剂和农药的成分比例,提高其效果和安全性。
能源:人工智能分子设计可以用于开发新型的能源材料,例如设计更高效的太阳能电池、燃料电池和储能材料。通过分析分子结构和性质,人工智能算法可以优化材料的电子传输和储存能力,从而提高能源转换效率。
化妆品和个人护理:人工智能分子设计也可以应用于化妆品和个人护理领域,例如设计更安全、更有效的化妆品成分和个人护理产品。通过分析分子结构和性质,人工智能算法可以优化化妆品和个人护理产品的成分比例和配方,提高其效果和安全性。
● 集成电路设计
与分子发现相比,集成电路设计的产业应用场景较为简单,通常作为电子设计自动化(EDA)软件功能的一部分用于芯片产业的设计环节。由于芯片设计的高度复杂性,芯片设计公司应用人工智能集成电路设计模型已经成为必然。
市场主流厂商及商业模式
● 分子发现
药物研发
目前药物研发领域是应用分子发现的最热门领域,主要商业模式有三种,第一种为以提供软件平台服务为主;第二种以内部研发赋能为主;第三种为提供药物研发外包服务为主。提供软件平台服务的企业为客户提供药物研发计算工具,并通过合作获得数据支持以迭代算法,协助药企更好地进行药物研发。内部研发主要以人工智能赋能自有药物研发管线。药物研发外包服务与药企合作推进新药研发,并获得数据沉淀以迭代算法,与第一种不同的是第一种仅提供工具,而药物研发外包则直接参与研发行为。
海外市场主流厂商
目前海外利用人工智能赋能药物研发的厂商主要分为三类,分别为专注于人工智能药物研发的企业、科技巨头公司与传统药企,而这其中专注于人工智能药物研发的企业为市场主流。
Schrödinger 开发的基于物理的计算平台可以较为精确地预测分子的关键理化性质,更高效且低成本地发现高质量分子。Schrödinger 在全球药企中的渗透率非常高。Schrödinger 公司的业务主要可以分为两部分,一是软件服务,二是药物发现服务。截至 2023 年第一季度末,Schrödinger 公司的软件服务在全球拥有 1600 余家客户,共有 30 个与药企合作的项目。2022 年末,Schrödinger 公司 软件服务收入为 1.36 亿美元、药物发现服务收入为 0.45 亿美元。
Relay Therapeutics 是一家专注于自研人工智能制药的生物制药公司。目前基于自研的药物筛选平台 Dynamo Platform 筛选出 6 个项目,其中一个项目处于临床,两个项目处于临床 1 期。
Exscientia 是一家人工智能驱动的药物研发公司,其开发了首个功能性精准肿瘤学平台,成功地在前瞻性干预性临床研究中指导治疗方案 选择并改善患者预后,同时推进了人工智能设计的小分子药物进入临床应用。目前 Exscientia 已有多个药物进入临床阶段,2022 年收入 3290 万美元。
中国市场主流厂商
与海外市场类似,中国市场厂商同样分为专注于人工智能药物研发的企业、科技巨头公司与传统药企,而专注于人工智能药物研发的企业同样为市场主流。
晶泰科技是一家量子物理与人工智能赋能的药物研发公司,通过提高药物研发的速度、规模、创新性和成功率,致力于实现药物研发的行业革新。目前晶泰科技有 13 条在研管线,其中三条管线已经进入临床阶段。在 2022 年 3 月至 2023 年 4 月期间,晶泰科技公开宣布与 10 家药企与研发企业达成合作。
英矽智能是一家全球领先的、利用端到端人工智能进行靶点发现、小分子化学和临床研发的公司。英矽智能开发人工智能系统,利用深度生成模型、强化学习、变换模型和其他现代机器学习技术来生成具有特定属性的新分子结构。英矽智能两种商业模式:通过自主研发的 Pharma.AI 平台提供人工智能驱动的药物发现服务和软件,以及利用自主研发的平台开发自有的临床前在研管线。
百图生科则是互联网科技巨头进军人工智能药物研发的典型代表。百图生科由百度创始人李彦宏发起创立,其产品百图生科(BioMap)是生物计算引擎驱动的创新药物研发平台。目前百图生科有 6 个管线药物正进行研发,其中进展最快的项目则在 临床前候选化合物阶段。
材料研发
目前材料研发领域的分子发现应用正逐渐兴起 ,但市场发展仍处于较早的阶段,目前市场内的厂商主要分为材料领域老牌厂商与科技巨头,目前多数情况是老牌厂商与科技公司合作进行人工智能辅助材料研发,部分老牌材料厂商自研人工智能材料研发技术。
海外市场情况
Citrine Informatics 是一家利用大数据、人工智能和机器学习技术提取和分析有关材料、化学品和设备的大量技术数据,以简化生产实体产品的任何组织的研发、制造和供应链运营的软件公司。如 Boeing 与其合作研发航空材料、BASF 与其合作研发化工催化剂、Panasonic 与其合作研发溶剂等等。
QuesTek Innovations 是全球著名的综合计算材料工程公司。其专利 Materials by Design®可用于快速设计和制造航空航天领域的金属零部件,如飞机起落架和传动装置。APPLE 也与 QuesTek 合作研发铝合金材料,QuesTek 更是受美国能源部高级能源研究计划署资助研发下一代涡轮叶片的新型合金和涂层材料。
除以上专注于以计算科学进行新材料研发的公司外,IBM 也与 NAGASE 合作研发新材料,HITACHI 与 Mitsui Chemicals 合作研发新材料,Dassault Systems 与 DOW 合作研发新聚合物、与 Symyx 合作研发化工催化剂,通用电气自研人工智能新材料研发技术自研高温合金材料,CORNING 公司自研电管陶瓷等。日本旭化成、三菱化学、三井化学、住友化学与东丽工业等在内的约 20 家日本企业与经济产业省合作,在 2021 年开始联合管理一个基于 AI 的系统,以使用国内专利来研发先进材料。
中国市场情况
深势科技致力于运用人工智能和分子模拟算法,结合先进计算手段求解重要科学问题,为生物医药、能源、材料和信息科学与工程研究打造新一代微尺度工业设计和仿真平台。深势科技推出了 Bohrium®微尺度科学计算云平台、Hermite®药物计算设计平台等微尺度工业设计基础设施,为药物、材料领域带来计算模拟及设计工具。宁德时代也与深势科技合作以改进电池性能为目标进行新材料的研发。
机数量子主要针对我国高端材料开发困难、底层数据缺乏、尖端材料工艺被封锁的“卡脖子”问题,融合量子化学计算、大数据分析和人工智能预测,提供材料大数据检索、新材料智能开发和整体解决方案等服务,践行材料产业数字化、数字材料产业化。
材智科技是专注于材料数字化技术研发与应用的技术供应商。其产品 iDataInsight 是一个构建机器学习模型与应用机器学习模型的平台,通过融合材料信息学、机器学习技术,加速材料研发与应用,助力高技术用户进行材料发现、结构分析、性质预测及反向设计。
● 集成电路设计
目前芯片行业主要商业模式可分为两类:垂直整合制造(IDM)模式和垂直分工(Fabless)模式。垂直整合制造模式是指公司从芯片的设计到制造、封测直至进入市场全部覆盖;垂直分工模式是指将各个环节拆分由不同的公司完成。
而在设计环节,主要的商业模式为知识产权(IP)授权模式与流片模式。IP 模式是指 IP 设计公司将自己设计的如 CPU、GPU、DSP、NPU 等芯片功能单元授权给其他的集成电路设计公司,收取 IP 授权费与芯片销售版税;流片模式是指集成电路设计公司将芯片设计落地为芯片产品,销售后获取收益。
对于垂直分工模式来说,由于不同环节由不同公司完成,因此通常包含 IP 授权与流片两种商业模式;而垂直整合制造由于所有环节均由同一公司完成,因此不包含或少量包含 IP 授权的商业模式。
海外市场主流厂商
目前海外市场的人工智能芯片设计市场高度集中,市场主要由几家大型芯片设计公司掌控。
ARM 公司是一家知识产权(IP)供应商,通过与 100 多家如 APPLE、Intel、IBM、LG、SONY 等业界顶级公司的合作,ARM 公司迅速成为全球 RISC 微处理器标准的缔造者。目前采用 ARM 技术知识产权的微处理器已经遍及工业控制、消费类电子产品、通信系统等各类产品市场。ARM 构建了人工智能与机器学习开发者社区,鼓励开发者应用并改善 ARM 的人工智能芯片设计工具,而 ARM 也在开发 Cortex CPU、Ethos NPU、Mali GPU 等芯片 IP 时应用集成电路设计模型。
Synopsys 是全球最大的电子设计自动化(EDA)软件工具厂商,为全球市场提供集成电路设计与验证平台,同时提供知识产权(IP)和芯片设计服务。Synopsys 是第一家将人工智能应用于产业 EDA 软件的公司,目前对外推出 DSO.ai、VSO.ai、TSO.ai 三款人工智能赋能的 EDA 软件。
Cadence 是一家从事电子设计自动化(EDA)软件工具、程序方案服务和设计服务的供应商,其产品涵盖了电子设计的全部流程,包括系统级设计、功能验证、集成电路综合及布局布线、模拟、混合信号及射频集成电路设计、全定制集成电路设计等等。Cadence 已经在其设计环节中广泛应用集成电路设计模型,并已将模型集成于其 Cerebrus、Integrity、Certus 等产品、平台与解决方案中。
除以上专注于集成电路设计的厂商外,Qualcomm、Broadcom、NVIDIA、AMD 等采用垂直整合制造(IDM)模式的集成电路厂商也积极应用集成电路设计模型。
中国市场主流厂商
与海外市场相比,中国芯片设计市场目前应用人工智能技术的公司较少,目前明确宣布产品应用人工智能技术的有华大九天、国微芯等老牌集成电路设计大厂,也有芯行纪之类的创业公司。与海外厂商相比中国芯片设计厂商无论是在商业竞争力方面还是在应用人工智能技术能力仍较弱,对海外厂商也存在技术依赖。
华大九天是最早从事电子设计自动化(EDA)研发的企业之一,以 EDA 工具软件为核心,围绕集成电路设计和晶圆制造等多种需求为客户提供解决方案,在 EDA 工具软件领域为中国企业之首。目前华大九天已将人工智能应用于其 EDA 软件中。
国微芯是一家专注于电子设计自动化(EDA)的企业,拥有领先的 EDA 关键核心技术,主要产品及服务包括设计后端 EDA 工具、制造端 EDA 工具、IP 设计、DFT 设计服务及后端设计服务等。目前其 EDA 工具已结合应用人工智能技术,提升芯片设计流程自动化程度、提升开发效率、优化产品性能。
芯行纪致力于自主研发新一代数字芯片实现 EDA 技术和提供高端数字芯片设计解决方案,可大幅度提升芯片设计效率,并助力实现芯片一次性快速量产。目前其智能布局规划工具 AmazeFP 已经应用集成电路设计模型以实现芯片的布局规划。
此外北京大学黄如院士团队的林亦波研究员、王润声教授等创建了首个致力于芯片设计 AI for EDA 应用的数据集——CircuitNet,并对外开源,数据集包含 1 万以上的数据样本,涵盖从实际制造工艺 PDK 下数字设计流程不同阶段中提取到的各类特征。
商业化面临的挑战
● 开发与验证成本高昂
传统的分子发现与集成电路设计是由实验驱动与计算驱动的,而人工智能分子发现与集成电路设计是数据驱动的,因此开发需要大量的数据支持,而专业领域的数据搜集难度与标注难度极大,因此数据成本高昂。且在此过程中需要大量接受高等教育的专业人才与跨专业领域人才从事相关工作,因此总体来说开发成本高昂。且对于分子发现与集成电路设计来说,在将分子构象与集成电路设计落实后才能验证其实际效果,在此过程中不仅需要面对在计算、工艺、产品落地等各方面的不确定性因素,也需要面对商业上的不确定性因素,且通常时间周期较长,因此验证成本高昂。
● 法律与安全问题
分子发现和集成电路设计模型的商业化还必须考虑法律和安全问题。分子发现可能会产生新的药物,这可能需要通过严格的审批程序才能上市。同时,集成电路设计模型可能需要考虑知识产权和隐私保护等问题。
而在安全问题方面,分子发现模型可能被用于开发违禁药品与危险化合物,因此还需要注意安全问题,而正因如此,前沿相关研究难以开源,因此相关技术发展高度依赖专业机构。
● 技术发展和竞争压力
人工智能领域的技术发展非常迅速,分子发现和集成电路设计模型也需要不断创新和提升,以应对竞争压力。同时,商业化的过程中还需要考虑技术的成本和效益。从历史来看,在分子发现和集成电路设计模型的早期,也被诟病其效率不足以替代计算驱动的研发范式,而之后随着人工智能技术的发展,目前的分子发现和集成电路设计技术也有可能被更新的技术取代,这也是商业化过程中的一个重要挑战。
前沿探索与趋势展望
对于分子发现和集成电路设计来说,高质量的训练数据在产业实际应用中通常非常难以获得,因此目前前沿探索的一个方向是减小对于训练数据的需求。而另一方面,出于分子构象与集成电路设计对原创性与新颖性的要求,也在探索模型生成训练数据分布外结果的能力。而从产业应用需求出发,分子发现和集成电路设计模型的应用场景也可能从设计逐渐向之后的环节拓展,如兼顾生产工艺的需求,药物的动物实验与临床试验数据建模分析等等。此外,大语言模型技术的发展也可能逐渐向分子发现和集成电路设计领域蔓延,不仅可以为相关应用提供更好的交互体验与功能体验,也可参与生成规则设计,生成结果检验等领域,提升分子发现和集成电路设计应用的自动化水平。
AIGC 产业研究报告系列共分为六个部分,包括语言生成篇、图像生成篇、音频生成篇、视频生成篇、三维生成篇、分子发现与电路设计篇,并将在本月陆续发布,欢迎关注并与我们共同探讨 AIGC 产业发展。
声明须知:易观分析在本文中引用的第三方数据和其他信息均来源于公开渠道,易观分析不对此承担任何责任。任何情况下,本文仅作为参考,不作为任何依据。本文著作权归发布者所有,未经易观分析授权,严禁转载、引用或以任何方式使用易观分析发布的任何内容。经授权后的任何媒体、网站或者个人使用时应原文引用并注明来源,且分析观点以易观分析官方发布的内容为准,不得进行任何形式的删减、增添、拼接、演绎、歪曲等。因不当使用而引发的争议,易观分析不承担因此产生的任何责任,并保留向相关责任主体进行责任追究的权利。
版权声明: 本文为 InfoQ 作者【易观分析】的原创文章。
原文链接:【http://xie.infoq.cn/article/6d8199bc0c4d6d9acd29884ac】。文章转载请联系作者。
评论