AI 泡沫要被戳破了?企业数据这样用才有含金量
7 月 9 日, AI 初创公司 Hebbia 宣布获得 1.3 亿美元 B 轮融资。该轮融资由 a16z 领投,Index Ventures、谷歌风险投资和 Peter Thiel 等跟投。
公开资料显示,Hebbia 创立于 2020 年 8 月,总部位于美国洛杉矶,同年 10 月获得 110 万美元种子轮融资;2022 年 7 月 17 日获得 3000 万美元 A 轮融资。B 轮融资后,该公司估值约为 7 亿美元,其产品和服务主要被应用在金融服务、法律领域,客户包括美国空军、资产管理公司和法律服务公司。
根据 Hebbia 创始人 Sivulka 介绍,目前该公司的年度经常性收入 (ARR)为 1300 万美元,该收入在过去 18 个月中增长了 15 倍,还为 OpenAI 贡献了 2%的收入。
Hebbia 的 B 轮融资使其成为 2024 年上半年全球 AI 初创公司中募集到巨额资金的公司之一 ,那么到底是什么让 Hebbia 在成长早期就成功斩获市场青睐呢?
Hebbia 的启示:非结构化数据是“金矿”,也是蓝海
Hebbia 曾因公开挑衅 Google 而声名鹊起——按其说法,全球最大的搜索引擎 Google 只索引了全球 4%数据,而还有 96%的非结构化私密数据没被索引和查询。非结构化数据是一个尚未被完全开发的“金矿”。而 Hebbia 想做的,就是挖掘这座金矿。
Hebbia 借助 OpenAI 等公司的大模型开发了 AI Agent(智能体)产品 Matrix,能够从多种来源索引、阅读和理解非结构化私有数据,包括监管文件、PDF、音频和视频剪辑等。该产品吸引了众多重量级客户,顶级资产管理公司、律师事务所、银行,就连美国空军都在使用 Matrix 来处理他们的复杂数据。在硅谷银行危机期间,资产管理者使用 Matrix 快速绘制了数百万份文件中区域银行的风险暴露图,从而有效应对危机。
非结构化数据结构化已是大势所趋
非结构化数据占据了企业存储系统的大量空间,它们对于训练和微调人工智能模型至关重要。然而,有效利用这些数据却因可扩展性、数据复杂性和集成困难等问题而变得复杂。
现有工具是为结构化数据设计的,如电子表格和数据库。事实证明,非结构化数据,如图像、视频和 PDF,更难大规模访问、评估和改进。算法工程师通常依靠构建自定义代码来管理非结构化数据。然而,这种方法的劳动密集型性质,加上可扩展性的潜在问题,使得管理非结构化数据成为挑战。
2024 年初,麦肯锡发布的关于人工智能状态的全球调查显示,只有 15%的公司意识到 GenAI 对其业务成果的有意义影响。造成这一结果的原因很大程度上归结于许多组织的数据效率低下。根据 Iterative 的说法,无法处理非结构化数据是人工智能成功的主要障碍,突显了结构化数据技术与基于 Python 的较新的人工智能工作流程之间的巨大差距。
在 AI 投资领域,将非结构化数据结构化就成为一个重要趋势,它不仅得益于技术进步,也符合市场需求和行业发展的方向,具有显著的经济潜力和战略价值。
技术进步:随着生成式人工智能技术的爆发,特别是大模型的出现,AI 对非结构化数据的理解能力有了显著提升,使得非结构化数据的价值得以释放。
产品创新:新兴公司如 Hebbia,通过开发知识工作助手 Matrix 等产品,专注于处理文档中的非结构化数据,包括 PDF、PowerPoint、电子表格等,将非结构化文本转化为结构化数据,便于分析和处理。
市场需求:非结构化数据占企业数据总量比重较大,例如在企业内部,非结构化数据占比高达 80%,但其使用率相对较低。随着 AI 应用的推动,企业对非结构化数据的价值化需求加速释放。
行业应用:在金融服务、法律、医疗和工业等行业中,非结构化数据的积累和 AI 应用需求推动了对这些数据进行结构化的需求,以提高数据的可用性和价值。
经济价值:根据麦肯锡研究测算,生成式 AI 技术,作为处理非结构化数据的一种方式,有望在全球经济中贡献约 7 万亿美元的价值,其中中国预计贡献约 2 万亿美元。
数据架构:新的数据架构如湖仓架构、数据网格架构、无服务器数据架构、图数据架构和边缘数据架构,都在推动非结构化数据的管理和利用,使企业能够更有效地从这些数据中提取价值。
非结构化数据如何让 AI 更智能?
为了从生成式 AI 中获得准确的结果,企业需要的不仅仅是电子表格和其他结构化数据。大量的非结构化数据如文档、图像、音频和视频记录以及社交媒体提要可能非常有价值,能够为企业提供更准确、更全面的人工智能见解,因为它们基于客户信息。但是,许多组织缺乏技术手段,无法以任何可信的方式查看、访问、集成和使用其非结构化数据。
ZByte(质变科技)是市场上新兴的 AI-Native 数据云公司。专注于严肃和高准确性 AI 和数据分析场景,ZByte 推出其数据云产品 Relyt,能够充分利用非结构化与结构化数据进行融合查询与分析。
那么,什么是非结构化与结构化数据融合查询和分析呢?能帮助解决哪些场景问题?我们通过典型的电商搜索和个性化推荐场景举例说明:
某电商平台希望提升其搜索功能和个性化推荐系统的准确性和用户满意度。他们需要整合用户的直播、视频、图片等访问行为、搜索等数据(非结构化数据)以及用户个人信息和购买历史(结构化数据)来提供定制化的购物体验。
AI 查询管道的构建:
数据接入与预处理:AI 系统通过一个查询管道连接到用户在平台上的各种互动数据源,包括搜索查询、视频和图片内容、点击流、评论和社交媒体反馈。
内容分解与数字化:系统将这些非结构化数据分解为逻辑块,例如用户兴趣点或购买意向,并将文本和行为数据转换为可由 AI 模型处理的数字格式。
数据索引:转换后的数据被索引在一个适合模型的数据库中,使得在用户进行搜索或需要推荐时可以快速检索和分析。
结构化与非结构化数据融合分析:
数据相关性:当用户在平台上搜索产品时,AI 系统需要迅速从用户的互动记录中提取相关信息,同时结合用户的个人信息和购买历史等结构化数据。
智能分析:使用 RAG 技术,AI 系统能够分析用户的搜索意图和偏好,并与用户的购买历史相结合,为用户推荐最相关的产品。
安全与隐私:在整个过程中,系统使用安全和隐私过滤器确保用户数据的保护,同时遵守相关法律法规。
结果生成:
个性化推荐:用户的搜索结果和推荐列表将根据 AI 系统生成的用户偏好和行为预测进行个性化调整,从而提供更加精准和个性化的购物体验。
决策支持:平台运营者可以利用这些综合数据来优化库存管理,发现热门趋势,并制定营销策略。
AI 数据云使客户能够根据意义或意图在营销或服务工作流程中执行语义搜索和检索信息。客户还可以将关键字和向量搜索结合起来,以实现混合搜索体验,从而为他们提供更相关的内容。这对企业来说是向前迈出的一大步。我们为客户提供的不仅仅是信息——而是提供相关背景来解锁另一层知识。
使这些模型更准确的有效方法是使用 RAG。RAG 通常让企业能够使用其结构化和非结构化的专有数据,使生成性人工智能更具情境性、及时性、可信性和相关性。它允许接受公共领域数据培训的大模型与公司的私有企业知识一起增强,确保更高的准确性、一致性和相关性。
企业高价值数据源于结构化和非结构化数据融合分析
真正“稀缺”的数据到底是什么?a16z 联合创始人 Ben Horowitz 讲述了一个场景:对于保险公司来说,你能获取一般数据库中人们的寿命信息,但不知道他们的具体健康状况和生活习惯。此时,真正有价值的数据是,具有特定档案和实验室结果的人群,他们的预期寿命是多久。
当前,企业数据成本连年攀升,其原因很大程度上归于企业不知道哪些数据对他们来说是高质量、高价值的 dataset for custom LLM(业务模型),所以无差别存储;对于非结构化数据结构化,结构化数据和非结构化数据融合处理和分析,就是获取更高质量、高价值数据的过程,将构建效果更加强大的 custom LLM。
AI 数据云提供了强大的个性化数据解决方案,通过非结构化和结构化数据融合分析提取价值信息并做出决策,帮助企业更好地理解和利用其数据资源,从而在多个业务场景中获得竞争优势:
欺诈检测:在欺诈检测领域,AI 数据云可以通过分析大量的交易数据来识别异常模式和可疑行为。例如,使用机器学习算法对客户信息和交易细节进行特征工程,然后将这些特征向量化并存储在向量数据库中。通过这种方式,可以快速检索与已知欺诈案例相似的交易,从而实现实时欺诈检测。这种技术的应用有助于金融机构提高其检测系统的准确性和效率。
推荐系统:在推荐系统中,AI 数据云通过处理和分析用户行为数据和产品信息,帮助发现用户偏好和产品之间的相似性。通过将用户的历史行为和产品特征转化为向量,可以有效地执行基于内容的推荐或协同过滤推荐。这种方法可以显著提高推荐的准确性和个性化程度。
实时广告出价:在实时广告出价(Real-Time Bidding, RTB)场景中,AI 数据云可以快速匹配广告和目标受众。通过分析用户的行为和偏好,能够将用户特征向量化,并与广告特征向量进行匹配,从而实现精准投放。这种方法可以提高广告的相关性和转化率,同时降低无效广告展示的成本。
个性化营销: 企业可使用客户数据库中的结构化数据,如联系方式、人口统计数据和购买历史记录,对客户进行细分,并以相关优惠和消息推送给他们。还可以使用来自社交媒体帖子、网页和评论的非结构化数据,以了解客户的偏好、情绪和反馈,并相应地定制企业的营销策略。
产品开发:企业可使用来自销售数据、库存数据和网络分析的结构化数据来衡量其产品的性能、受欢迎程度和盈利能力。使用来自电子邮件、调查和用户生成内容的非结构化数据来收集客户反馈、建议和投诉,并提高其产品质量和功能。
竞争情报:企业可使用财务记录、市场报告和行业基准的结构化数据来分析自己的优势、劣势、机会和威胁。他们还可以使用新闻文章、博客和播客中的非结构化数据来监控竞争对手的活动、战略和声誉,并获得竞争优势。
业务关键决策:企业可使用来自财务记录、运营和业务流程的结构化数据以及来自内部治理流程、决策记录、对话以及公司规则和政策的非结构化数据来自动响应,并在关键关键业务问题和决策发生之前提供答案。
质变科技简介
质变科技,为企业客户提供经生产验证的一体化 AI 数据云服务,支持以一份数据为中心的离在线一体化、向量数据存储检索、内容检索/排序/召回/评估等 AI 数据基础设施解决方案,助力客户实现数据驱动和 AI 驱动的业务升级。
其中,向量数据库产品 Relyt-V 的优势在于其高效的多路召回,支持稠密向量、稀疏向量、标量和全文的多路召回;支持处理高维数据、大规模数据集,同时支持高维向量的索引构建和搜索、异构向量数据类型、分布式并行处理以及与主流机器学习框架的集成。详情了解:万字长文|从AIGC典型客户实践揭秘云原生向量数据库内核设计与智能创新
质变科技由前阿里云、微软中国核心管理成员创立,团队包括前阿里云 OLAP 产品部总经理、前阿里云 CFO 以及多名资深技术专家和来自国内外顶尖高校的研发人才,团队核心成员曾经连续多年在权威机构 TPC 的 TPC-DS、TPC-H 评测上获得全球第一的成绩。目前服务于世界五百强消费科技企业等企业客户以及近百万全球专业用户。
AI 数据云 Relyt 在服务客户的实践中性能和性价比全球领跑,提供结构化数据和非结构化数据融合的全局一份数据,以传统数据平台 1/10 的总拥有成本为您提供 99.9% 的查询级别可用性、多云(Multi-Cloud)、多地域 (Multi-Region),以及任意查询负载( RAG、数据仓库、数据湖、大数据、数据科学等)的 AI 数据云服务。了解更多
版权声明: 本文为 InfoQ 作者【AI数据云Relyt】的原创文章。
原文链接:【http://xie.infoq.cn/article/184b4b01df76bf6726972926e】。文章转载请联系作者。
评论