白话大模型① :AI 分析能做什么?在实际落地中会碰到什么问题?
白话大模型系列共六篇文章,将通俗易懂的解读大模型相关的专业术语。本文为第一篇:AI 分析能做什么?在实际落地中会碰到什么问题?
作者:星环科技 人工智能产品部
我们使用一个简单的应用实例来解析人工智能分析都在做什么。
以单一 AI 应用为例
人脸检索
我们以人脸检索为例,来看看利用“人工智能”能力的流程。注意到,实际上有几个视角。•问题是什么:假设已经有很多不同人的正面照(比如证件照)以及对应的 ID,现在拍摄到了一张某人的新照片,我们需要判断这张照片中是的人是谁?•步骤是什么: 基本流程大部分人脑中都有基本印象了,是一套固定的模式
图 1 基础流程比如人脸的例子“采集数据”就替换成“采集人脸数据”
完整的流程
图 2 分析典型的人脸识别要做什么一般而言,完整的数据分析流程的步骤是相对冗长的,上面的内容展示了一个典型的“人脸识别”的 AI 应用形态在“需求分析”角度看,在做什么。使用一个在数字化、智能化之前就存在的例子来说,这就类似在图书馆查书名、作者,可以方便的找到想要的编号(ID)和其所在的书架并借阅这本书。实际工作比较复杂复杂很多,我们下面会稍微详细的叙述。首先从“数量化”开始。
数量化
首先,我们需要将人脸照片转化为计算机能够理解的数据。这个过程叫做“量化”。比如早期的图书馆检索,是通过人工编制索引卡片,然后通过卡片找到书籍的位置。这个过程就是“量化”。我们将书籍的信息转化为了卡片的信息。
图 3 我国澳门公共图书馆的卡片目录(柜)可以看到,为了检索为目的,图书卡片目录至少要 1.保存书籍的信息(书名、作者、出版社、出版日期等)2.保存书籍的位置(柜号、层号、架号、排号等)3.保存书籍的编号(索书号、ISBN 等)对应到人脸识别,我们需要保存的信息也是类似的。我们需要保存的“人脸卡片目录”信息包括(姑且认为):1.人脸的特征(比如眼睛、鼻子、嘴巴等):可以是相对大小、颜色等 2.人脸的位置:可以是相对位置、绝对位置等 3.人脸的编号:可以是身份证号、学号等实际操作中,人脸卡片目录一般都“编码”成了一串固定长度,比如说 1024,的数字(也就是“向量”),其有个特定且形象的名字“嵌入向量”:将人脸的特征(比如瞳距、鼻宽等)、位置(眼相对鼻距离等)、编号等信息,”嵌入“到这 1024 维的“向量”中。
但是,我们需要注意到,这些信息都是“人工”提取的。这个过程是非常耗时的。而且,这些信息的提取是非常“主观”的。不同的人可能会提取出不同的信息。而且,更重要的是,这样提取,很难保证“准确性”和“泛化性”。不考虑严格的学术定义,这两个带引号的词的含义是:
准确性
按照提取的信息,能够准确的找到对应的书籍/人脸的概率。这里,由于信息不准确等问题,通常可能检索出多个待选结果,这里的准确性一般是指排名前几的结果中,是否包含正确结果的概率。这比较好理解,一位作家可能写了多本书,书名、年代可能相似,查询者记忆比较模糊,问的不准确,都可能只能找到一个“范围”。这个范围内,可能有多本书,但是只有一本是正确的。这个时候,我们就需要“挑选”了。到了“人脸检测”,这个问题可能更严重些。根据口、耳、鼻形态的的手工构建的数量化特征,排列组合可能性来找到“相似”的人脸。这样操作下来,排序后找到最相似前五名,使用十五年前最厉害的算法,真正想找的人在其中的概率连一半都不到。事实上,尽管“人脸识别”这个需求自有视频监控和照相技术后就一直是刚需,但这么低的准确率一直持续到 2010 年前后。新的”方法“的出现,才使得准确率有了质的提升。
泛化性
泛化是个阻碍人工智能在应用中大规模铺开的问题。泛化性是指,对同一个问题,对于“新的数据”,人工智能模型还能保证原有的性能(比如查找精度等)。但事实上,问题很多,比如:1.检索书籍中,原本书籍题目限制在 20 字以内,但是现在有了超过 20 字的书籍,比如白居易《望月有感》的诗,题目是《自河南经乱,关内阻饥,兄弟离散,各在一处。因望月有感,聊书所怀,寄上浮梁大兄,于潜七兄,乌江十五兄,兼示符离及下邽弟妹》,共 50 个字,这个时候,原有的卡片目录抄录不下。2.检索人脸中,原本的人脸照片都是正面照,但是现在有了侧面照,这个时候,原有的卡片目录就无法使用了。或者,在最近两年中,原本好用的手机人脸识别解锁,在人带了口罩后(甚至遮挡并不算多),就无法使用了。以上的例子比比皆是,这些问题都是“泛化性”问题。同一个问题, 新的数据,这些日常使用的单词,并没有数量化的定义,甚至不同人、不同领域的认知都完全不同,也客观上导致了现实中 AI 落地的诸多问题。
评论