GGV 对话 Zilliz 星爵:向量数据库,开创 AI 原生数据基础软件时代
当 ChatGPT 、AutoGPT 等诸多新项目一跃成为科技圈的谈资时,AIGC 终于迎来了井喷式发展,而其背后的大语言模型(LLMs)也受到了前所未有的关注。全球开发者仿佛又看到了那个曾经辉煌的移动互联网创业时代,争先涌入这一赛道。
ChatGPT 的出现将会让 AI 程序开发变得极度简化,掌握 CVP Stack 就拥有了 AI 开发的未来。其中,C 代表以 ChatGPT 为代表的大模型,它在 AI 程序中充当中央处理器的角色;V 代表 Vector Database,即以 Zilliz 和 Milvus 为代表的向量数据库,为大模型提供知识存储;P 代表 Prompt Engineering,各环节通过 prompt 的方式进行交互。向量数据库站在了 AI 基础设施的风口浪尖。
有人紧跟趋势,有人重启赛道,也有人彷佛能预知趋势般早早开始布局。早在 2017 年,中国就诞生了全球第一家向量数据库公司,它就是由星爵创办的 Zilliz。
Zilliz 身为向量数据库的全球先行者,在创新的道路上披荆斩棘、筚路蓝缕。对于创始人星爵来说,之所以在多年前选择这样一条曾经无人问津的道路,正是因为他看见了 AI 技术快速发展与传统数据库技术之间青黄不接的痛点,而痛点恰恰意味着可能有机会出现。
如今,在向量数据库这条道路上,Zilliz 已然不是孤军奋战,为此星爵的感受并非惶恐不安,而是深感欣慰。当一条道路上出现了更多的竞争者,恰恰意味着 Zilliz 走在一条正确的道路上。百花齐放才能称之为春天,人多了才能形成广阔的市场。Zilliz 担忧的从来不是前无古人,而是后无来者。
今天的 GGV OMEGA 访谈录根据《创业内幕》S4 Vol.42 期内容整理而来,我们请到了对 AI 见解独到的 Zilliz 创始人——星爵,也欢迎大家收听本期节目。
下面的内容将分享,曾经的星爵为何选择了这样一条人迹罕至的道路,又是出于何因选择了将技术开源;在创业的过程中,他遇到了哪些挑战,又是如何一一克服,走出一条 Zilliz 独有的道路,迎接属于 AI 的 “iPhone 时刻”,答案就在这里。
核心观点:
创业无非就是从看见需求到解决需求。
走得远的创业公司需要公司文化加持。
创业路上有竞争对手并非坏事,那说明方向是对的。
盈利和烧钱并不冲突,创业需要厚积薄发。
全球化布局道路的拦路虎就是用户付费意愿+数据安全和合规挑战。
人才招聘——被动吸引和主动寻找,双管齐下。
创业无非就是从看见需求到解决需求
星爵身为数据库领域的老兵,却选择离开 Oracle(甲骨文),投身孤独的创业路。这背后的原因是什么?他何来信心觉得自己能够创业成功呢?
GGV OMEGA
先请星爵介绍一下自己和 Zilliz 这家公司。
星爵
我自己是一个数据库领域的老兵,创业之前在 Oracle(甲骨文)的全球总部工作,负责数据库的研发,当时和团队做的是 12c 的云数据库。离开 Oracle 后,我就回国创立了 Zilliz,也是一家开源的基础软件公司,专注于研发新一代面向于各种 AI 应用的向量数据库系统。
大家都知道,在 AI 时代,我们处理的很多数据都是这些新型的非结构化数据(比如像图片视频、用户行为、画像语言、自然语言等等),甚至于在生物化学领域里面,需要研究蛋白质的三维结构、化学分子式的三维结构等等,这些都属于非结构化数据。在此情况下,以 Milvus 为代表的向量数据库提供了一种高效的且能够管理、分析、使用这些非结构化数据的方式,帮助各行各业挖掘非结构化数据后面的价值。所以在过去几年里,我们也有幸把产品通过开源的方式推向整个市场,在全球范围内得到了超过几千家用户的青睐。
GGV OMEGA
咱们目前团队是个什么样的组合?您觉得您为什么可以去做这样一件事?
星爵
放到 AI 时代的大背景中,我们的向量数据库是在 AI 新的应用场景之下产生的一个新型数据库基础软件,背后有两大背景:一是 AI 领域发展带来的新场景新应用,二是海量的非结构化数据亟待被管理,而从数量级来说,它们可能比结构化数据还要大上一个数量级。
至于如何去设计一个高效的向量数据库,那就需要具备两方面的能力:
熟练掌握 AI 的能力
这意味着一定要懂得 AI 的使用场景、使用方式,甚至要懂得 AI 的生态运作体系;
需要有传统的数据库技术能力
要管理如此量级的数据,同样需要具备传统的数据库技术能力(包括如何做分布式,怎么做扩收容,如何做数据安全、备份,高可用等能力)。
基于此,我们在组建团队的时候,会特别考虑这两个方面,所以现在团队是兼具 AI 与数据库传统基础软件的交叉复合型团队。
GGV OMEGA
您一开始创业时就想清楚了要做 AI 向量数据库吗?
星爵
其实不是的,五六年前我回国时,只是有一个很懵懂的想法。首先是我看到了 AI 时代里面 AI 的新场景、新需求,这让我坚信,未来 5-10 年,一定会有一个新型的 AI 时代的数据库软件出现,但是它具体是什么样的形态,什么样的产品功能,其实当时没有想得特别清楚。所以回国后我和团队做的第一个产品,就是利用 AI 时代里的新型硬件(有很多 GPU、新型的异构计算的芯片),做了一个新型的数据分析引擎,通俗来讲就是 GPU 数据库跑在 GPU 处理器之上的一个新型的数据分析、处理软件。
在那之后,我们觉得找到了新的方向,加上技术过硬,产品本身具备创新性,整个团队都觉得信心满满。于是我们把它拿到市场上进行检验,但是在检验过程中发现,虽然这个产品无论在技术还是想法方面都极具优势,可在实际落地过程中解决的问题仍然比较有限。所以当时我们就一边接触用户,一边在想如何做出一个更好的、能够达到 PMF(Product-market fit,产品-市场匹配)的产品。
经过差不多一年的探索后,我们发现市场上的很多用户,对向量的数据管理、计算、分析、比对、查询需求强烈,甚至成为了一个新兴的市场,并且这个市场几乎是每个做深度学习的 AI 公司的刚需。所以团队在 2018 年下半年开启了一个新型项目,即研发向量数据库。2019 年,我们把这个产品以开源的方式推向整个市场,大概 4 到 5 个月之后,我们就拥有了四五十家用户,这也让团队意识到这个赛道背后藏着更大的潜力。事实证明,我们的确解决了很多 AI 企业在进行 AI 大规模生产环境部署中的一个痛点,所以后面整个公司就 all in 向量数据库赛道,一直做到了今天。
推陈出新:走得远的创业公司需要公司文化加持
从传统数据库到 AI 向量数据库的转换,是一个推陈出新的过程,刚开始难免不被认可和不被理解,但这些都是创业经历中无法避免的阶段。要想创业成功,要想公司走得更远,公司必须具备自己的文化。
GGV OMEGA
您能不能给我们通俗地解释一下,什么叫“ AI 向量数据库”,它和我们日常理解的数据库有什么不同?
星爵
本质上讲,任何一种管理数据的系统软件,都可以叫作“数据库”。一个数据库的基本功能,是需要提供数据的高效存储、检索、索引,甚至可以做分析查询等等。传统的数据库可能都是一些关系型数据库、分布式数据库,以及近年来出现的图数据库、时间序列数据库等等,这些数据库其实都有一个特点:它们处理的数据是结构化的数据,即像计算机比较容易了解和处理的一些数字、字符串等等。
现在到了 AI 时代,人机对话讲的是机器和算法如何去理解人的自然语言,我们讲的是计算机视觉,就是整个机器如何像人一样去观察、感知整个世界,包括我们说的生物制药这些领域,类似研究小分子的三维结构、蛋白质的三维结构和它的生化活性之间的关系等,最终达到帮用户找到更好的创新药的目的。
在 AI 时代,开发者都会用一些 AI 的深度学习算法模型,并把这些数据转化为高维的数学概念。比较通俗地讲,就是通过一个高维的向量,集成、代表这些非结构化数据,图片也好,视频语言中一些深度的语义也罢,通过向量的查询跟比对和向量数据库的向量计算的能力,可以实现对这些非结构化数据的语义计算、语义理解、语义查询。例如,之前我们做图片检索,可能要用文件名的方式查找,有了这种向量数据库的技术,只要输入一个场景,它就会自动理解哪些图片、视频里面包含你所查询的场景,然后把这些场景找出来。
GGV OMEGA
您说一开始可能大家并不太理解您所做的事情,那您是怎么去向他们澄清这种误解的?又是怎么去说服自己坚持下去的呢?
星爵
从对外层面来讲,我觉得能够进行良好的对外沟通是一个创业者需要具备的最基本的能力,所以不管是面对投资人还是潜在工程师,如果希望说服对方加入公司,就需要从行业大势、AI 发展等大的层面进行更多沟通。从另一个角度来看,我们不可能说服所有人,所以寻找投资人或者理想中的志同道合创业小伙伴,都是弱水三千只取一瓢饮。因此,我认为对外沟通并不困难。
从对内的角度来看,在一个高度不确定性的环境下,要凝聚大家的力量并向着一个方向努力,可能是一件比对外沟通更加困难的事情。过去几年,因为我们一直走在无人区,基本上所有的技术方向、技术架构还有技术的探索和实验,可能都需要自己去摸索。所以,过去我们内部在研发过程中经历了很多次挑战和失败。
正因如此,我们公司内部形成了一种文化,就是先把产品的商业化摆在一边,优先做一些具有开创性的、困难的事情。再者,作为一个工程师文化特别浓厚的团队,我们是在做一件之前别人没有做过乃至没有解决过的事情,这本身就会让大家觉得很酷,容易激发斗志。另外一方面,我觉得恰恰是因为这种文化,才吸引到了一群极客工程师,他们本身就很愿意去做一些高度不确定性的东西。
创业路上有竞争对手并非坏事,那说明方向是对的。
孤身独行的创业路固然少了竞争,但也意味着它可能并非一条会柳暗花明的道路。与其害怕竞争,还不如欢迎对手来分一杯羹,让对手帮忙开拓市场,市场大了,才有更多提升的价值空间。
GGV OMEGA
作为一个开源数据库,公司现在有哪些大客户是可以跟我们去分享的吗?它在实际应用中是否已经有了一些成功案例了?
星爵
其实,我们的用户分布在各个行业。例如,在互联网和电商行业,盈利基本上靠“搜广推”,即用向量数据库的技术结合深度学习做更好的“搜广推”,改善“搜广推”的质量。所以,我们在个性化搜索、个性化系统推荐引擎、定向定制化广告这些方面的应用场景比较多。海外电商里包括 Shopee、eBay 都在使用我们的产品,国内很多互联网公司后面的“搜广推”系统,或多或少也都会用到我们的产品。
此外,随着短视频在全球兴起,如何更好地去理解图片、视频里面的内容并基于这些内容做更好的推荐,甚至基于视频进行电商的商业化尝试,成为很多短视频公司的重要挑战。为此像快手、虎牙等头部短视频厂商也会使用我们的产品。
在更大的一个背景里,例如在安全和欺诈检测的很多应用场景,同样有我们的用户。国内几家比较头部的金融机构,都在用我们的产品结合深度学习去做欺诈检测。另外,在计算机安全和网络安全领域,一些做网络安全的公司,会用我们的技术去分析整个网络流量,从而区分正常流量和网络攻击流量。
GGV OMEGA
据我所知,其实 AI 向量数据库赛道在中国没什么公司布局,那么在全球范围内,您有看到哪些竞争对手/哪些巨头已经在布局该领域了吗?
星爵
其实我们在 2018 年刚起步的时候,还是挺孤独的,就算是跟投资人、业界工程师、专家去探讨,大家也都表示这个东西看不太准,不是特别理解。但是在 2020 年至 2022 年的时间里,向量数据库赛道经历了一波小爆发,尤其是 2021 年以来,我们看到国际上的一些巨头纷纷在向量数据库的品类布局,并相继推出了他们的向量数据库的产品。除了大巨头以外,还有一些中型巨头、在创业公司里面做得比较好也比较大的基础软件公司,也都在他们原有能力之外,推出了这种向量数据连锁的扩展。
所以从 2021 年以后,这个原本有些冷清的市场,突然变得异常热闹,向量数据库也越来越多地进入到 AI 工程师、开发工程师的视野,这是让团队尤为欣喜的一点。本来我们预计可能还要孤独地继续探索一两年,但是现在发现整个行业的发展可能要超过我们的预期。
盈利和烧钱并不冲突,创业需要厚积薄发。
面对烧钱的质疑,Zilliz 毫不畏惧。对于 Zilliz 而言,每一笔钱都花在了刀刃上,因为 Zilliz 是需要凭借积攒的技术来为将来创收的。商业化的征途,必然是先付出再得到,真金白银打造的优质产品,才更有将来持续盈利的可能性。
GGV OMEGA
目前 Zilliz 已经盈利了吗?盈利的模式是什么?
星爵
其实早在前几年,Zilliz 就已经确定好了唯一的商业模式,就是在云上构建向量数据库的云服务。我们已经看到云是未来,尤其对于非结构化数据的处理而言,未来只能是云。因为对于一家公司而言,自行维护 AI 包括非结构化数据处理、向量数据库的基础架构是相当困难的。在下一个 AI 时代里,对这种基础软件的用户来说,他们上云的需求可能不是“想与不想”的问题,而是“不得不”的问题,因为相关的模型训练、AI 部署、向量数据库的数据管理,大部分已经在云上了。所以,我们坚定地把云作为我们整个公司的一个整体战略,也把整个商业化产品形态,全力投入在向量数据库的云服务之上。
其实从去年开始,Zilliz 就已经开始研发向量数据库的云服务,这是一个在公有云上面的数据库服务,是一个全托管的,能够在云上面提供安全、高效、高可用的向量数据库的云服务。对我们的用户来讲,他们再也不用考虑自己部署向量数据库的系统的问题,也不用管以后如何运维,甚至整个系统的高可用性管理,包括容灾、性能调优等等。总之,我们会帮用户打点好一切。
2 个月前,我们发布了向量数据库的云服务,叫作 Zilliz Cloud 的早期预览版,下个月会发布正式版本。到那个时候,我们公司可能就会进入一个新阶段,从一个开源的技术公司,变成一个开源且面向商业化、拥抱商业化的公司。所以今年年底应该就是我们商业化征途的开始。(本对话的时间为 2022 年底,Zilliz Cloud 早期预览版实际发布于 2022 年 9 月,正式版发布于 2023 年 3 月,2023 年 7 月即将登陆阿里云。 )
GGV OMEGA
您怎么看待烧钱的这种模式,烧钱的效率应该怎么提升?
星爵
首先我想说明一点,我们公司从来没有在烧钱,花的每一分钱都特别慎重,恨不得把一分钱当两分钱花。过去几年,我们把每一分钱/每一份资源和时间,都用在一个我们认为的最核心的公司竞争力上,就是我们的技术和产品。目前,公司大概有 100 多人,但是接近 80% 的员工都是工程师。我们也没怎么在市面上投放广告、PR 投放,绝大部分 PR 投放都是通过我们的社区、技术分享等这些自然流量去换来的。
之所以会有这样的选择,是因为我们看到,作为一个基础软件公司/数据库公司,技术和产品是最核心的竞争力,对 To B 公司而言没有太多花活可以选择。另外,作为数据库的一个基础软件,必须要经过长时间的研发,因为基础软件(尤其像数据库这种基础软件)的复杂程度相当高,这本身就需要大量长期研发投入才能做到。与其说我们是故意推迟我们商业化的时间节点,不如说数据库软件本身就极具复杂性,如果没有通过三五年的研发,几乎不可能做出一个可用的产品。
所以,我也要特别感谢过去一路陪我们走来的所有投资人,感谢他们对我们的信任,和我们坚定地认同同一个愿景/理想;也感谢公司里每一位辛勤的工程师,正是因为大家在过去三五年不断地付出和坚持,才有我们今天这样一个比较可用、比较好用的产品,也使得我们有信心能够把公司的产品做成在云上实现商业化的云服务,让公司走入下一个商业化阶段。
GGV OMEGA
其实您当年加入甲骨文的时候,在甲骨文负责的第一款云数据产品就叫 12c,您进入这个团队时只有 5 个人,此后 6 年时间里,平均每年也只有 7-8 个人,但是迭代了两个版本。到今天为止,这个团队其实已经有上百人了。四五个人一起去开发一款这样大的产品,对您今天创业有什么特殊的启示/启发吗?
星爵
最大的一个影响就是面对复杂后的从容。解释一下,你见过最复杂的系统,和最优秀的一些工程师是如何解决问题的。当你再次遇到比较难的问题时,可能心里就不会慌了,即便有的问题暂时不知道解法,也能保留这一份从容和自信。
从技术层面来讲,我在研究生阶段学到的关于数据库的理论知识、在论文上面读到的知识点,毕业后能够有机会看到它在行业中最领先的数据库系统里搭建,同样受益匪浅。
而当我创业时,因为见过更复杂的系统,在做一些决定的时候,技术层面的风险是比较可控的,整体会觉得充满信心、趋于乐观。
全球化布局道路的拦路虎:用户付费意愿+数据安全和合规挑战
Zilliz 作为涉及数据安全和合规挑战的公司,在全球化布局的道路上,势必面对着许多亟待解决的挑战。提前去考虑和应对这些问题,有助于公司更顺利地进行全球化布局,节省许多金钱和时间成本。
GGV OMEGA
对比海外用户和中国的本土用户,您觉得他们在付费意愿和客单价上有什么不同吗?
星爵
我觉得它们的不同还是蛮明显的。国内公司对新技术其实很敏感,包括工程师对技术的追求也是很积极的,但是如果说到商业化付费意愿还有付费能力,和国外的差距就比较大了。尤其是这种基础软件,因为它是跑在整个计算机系统的最底层的软件,很多公司的 CTO 包括 CEO 可能是看不到的,同时国内很多公司可能也比较倾向于自己造轮子,不会想说花更少钱去买一个基础软件产品,最为明显的是互联网领域。整体来看,国内公司的付费意识和付费意愿比较低,落后国外一个阶段。
GGV OMEGA
在全球化道路上,咱们需要面对大量关于数据安全和合规的挑战,做好准备了吗?
星爵
其实我们已经开始关注合规和数据安全这一方面的一些问题,包括我们今年产品已经通过了 SOCII 的认证,接下来我们也会去推进像 GDPR 等更多不同地区和国家的一些数据安全、数据管理的合规认证。
同时,我想给其他创业公司/创业小伙伴一些建议,如果你想做一个国际化生意/国外市场,那么数据安全和合规可能是你在第一天就要考虑的问题,越早把公司内部的管理流程还有产品往合规方向去做,未来就能为你节约越多的时间跟成本。
人才招聘:被动吸引和主动寻找,双管齐下
Zilliz 作为一家提供开源产品的公司,在人才招聘方面,秉持着被动吸引和主动吸引的双全法。专注于产品,打造好的公司氛围,适合公司的人才自然而然会被吸引过来;同时在寻找人才上下足功夫,招贤纳士。
GGV OMEGA
您能不能给我们的创业者一些建议,就是怎么运营一个开源社区,怎么获取 organic traffic(自然流量)?对于人才招聘有没有什么好的建议?
星爵
其实我们在这一方面属于持续探索的过程中,经验谈不上,但是有一个特别值得去分享的教训:当你做一个开源产品的时候,一定要有一个更开放的心态。在开源的世界里,你做这种 me too,甚至做 me better,可能都不是一个解决问题的最优选择,最好的方法就是保持专注。
过去几年,我们的社区发展取得了一点成果,这可能就来自于团队当时很克制且很精准地选了向量数据库、向量数据管理。到现在为止,我们也坚定地只做一件事情,不会把自己的能力延伸到其他赛道里。在整个 AI 生态里,Zilliz 希望用一种更开放的心态,跟上下游合作,这就相当于你在利用已有的社区生态能量,去为自己的项目、社区贡献更多合力。
另外,我觉得如果想要做好开源的社区运营,不见得要打造一个全新社区,也可以加入现在已有的成熟社区,利用它成熟的社区治理理念、治理架构,利用他社区里面活跃的生态和活跃的开发者。总之,用一种更开放的心态,分享自己项目的技术能力和产品能力,为这些开发者和社区赋能,为开发者这个大群体本身和开源事业贡献自己的一份力量。
在招聘人才方面,有两个层面值得分享:第一个层面,把你的技术和产品做好,建立一个以技术为主导、研发为主导的工程师文化氛围,这对吸引人才行之有效;另一方面,可能要花更多资源和精力去寻找团队人才,例如,我们在公司内部建了一个小的猎头公司,有 5 个全职人员专门负责找人。综上,我觉得想要寻找优秀的人才, CEO 就要在面试人才上付出更多精力,公司要投入更多资源,掘地三尺把这些人才找到。
GGV OMEGA
你们现在在中国大陆地区还需要招人吗?
星爵
我们需要招人,我们现在在全球包括中国大陆地区都在招人。欢迎认同 Zilliz 价值观的小伙伴,加入我们这个年轻的大家庭,和我们一起在数据库技术探索的道路上,发现更多的可能。
如果在使用 Milvus 或 Zilliz 产品有任何问题,可添加小助手微信 “zilliz-tech” 加入交流群
欢迎关注微信公众号“Zilliz”,了解最新资讯。
评论