写点什么

WIZMAP- 大规模 embedding 向量的可视化交互工具

作者:Zilliz
  • 2023-07-06
    北京
  • 本文字数:2117 字

    阅读完需:约 7 分钟

出品人:Towhee 技术团队

作者:张晨


机器学习或深度学习模型通常会学习潜在的 embedding 表示,以捕获训练数据的领域语义。这些 embedding 表示对于解释训练模型、构建新模型和分析新数据集非常有价值。


然而,由于现代数据集的不透明性、高维度和大尺寸,解释和使用 embeddings 可能具有挑战性。为了应对这些挑战,本文推出了 WIZMAP,这是一种交互式可视化工具,可以帮助研究人员和从业者轻松探索大型 embeddings。凭借新颖的多分辨率 embedding 总结方法和熟悉的地图式交互设计,WIZMAP 使用户能够轻松导航和解释 embedding 空间。利用现代网络技术 WebGL 和 Web Workers 等工具,WIZMAP 可以直接在用户的 Web 浏览器和计算笔记本中扩展到数百万个 embedding 点,而无需专用的后端服务器。


|WIZMAP 使机器学习研究人员和领域专家能够轻松探索和解释不同粒度级别的数百万个 embedding 向量。考虑调查 1980 年至 2022 年 ACL Anthology 索引的所有 63k 自然语言处理论文 summarization 的 embeddings 的任务。(A)Map view 紧密集成了等值线图层、散点图和自动生成的多分辨率 embedding summarization 可帮助用户浏览广阔的 embedding 空间。(B)搜索面板使用户能够通过快速全文 embedding 搜索来快速测试他们的假设。(C)控制面板允许用户自定义 embedding 可视化、比较多个 embedding 组,并观察 embeddings 如何随时间演变。


在使用 WIZMAP 前,用户需要自己选择抽取 embedding 的模型,比如 word2vec, CLIP 等。然后选择降维投影方法,比如 PCA,t-SNE,UMAP 等,将 embedding 向量降低到 2 维。经过这两步后,用户就可以导入数据集的这些 2 维向量,在 WIZMAP 上呈现出来。


WIZMAP 有两大特点,一个是可以处理大规模的 embedding 数据,另一个是可以对这些 embeding 进行自动 summarizing。这得益于它的多分辨率四叉树聚合与可扩展的叶级 summarization 技术。


  • 四叉树聚合。 从每个 embedding 点出发,构建了一个四叉树,这是一种递归划分 2d 空间的树数据结构。然后自下而上遍历树,在每次迭代中,首先提取每个叶节点中 embeddings 的 summarization,然后将最低级别的叶节点与其父节点合并。这个过程递归地继续,形成越来越大的叶节点,直到整个树合并为根处的单个节点。最后,将预先计算的 embedding summarization 映射到合适的粒度级别,并在用户放大或缩小 WIZMAP 时动态显示它们。

  • 可扩展的叶级 summarization。在执行四叉树聚合时,研究人员可以灵活地选择任何合适的方法来从叶节点汇总 embedding。对于文本 embeddings,本文提出了 t-TF-IDF(基于图块的 TFIDF),类似于 c-TF-IDF(基于分类的 TF-IDF),在计算 TF-IDF 分数之前将集群中的文档组合成元文档。这里,将每个叶节点(即四叉树分区中的图块)中的所有文档合并为元文档,并计算所有叶节点上的 TF-IDF 分数。最后,提取 t-TF-IDF 分数最高的关键词来总结叶节点中的 embeddings。这种方法是可扩展的并且是四叉树聚合的补充。因为文档合并是分层的,所以只构造一次 n 元语法计数矩阵,并在每次聚合迭代中仅使用一次矩阵乘法来更新它。对于非文本数据,通过在叶节点中查找最接近 embeddings 质心的点来总结 embedding。


当然本文也指出了,不良行为者可能会利用使用 WIZMAP 获得的见解来达到恶意目的。例如,研究表明机器学习 embeddings 包含社会偏见。因此,不良行为者可以通过注入已知与性别和种族偏见相关的 embeddings 输入来操纵和破坏机器学习预测。有偏见的 embeddings 的潜在危害值得进一步研究。


目前在 WIZMAP 的 Gallery 里提供了三个可以直接玩的场景:

  • IMDB Review Comments

  • ACL Paper Abstracts

  • DiffusionDB Prompts + Images


大家直接在浏览器打开就可以体验。


参考链接:

代码地址:https://github.com/poloclub/wizmap 论文地址:https://arxiv.org/abs/2306.09328v1


🌟全托管 Milvus SaaS/PaaS 即将上线,由 Zilliz 原厂打造!覆盖阿里云、百度智能云、腾讯云、金山云。目前已支持申请试用,企业用户 PoC 申请或其他商务合作请联系 business@zilliz.com。


  • 如果在使用 Milvus 或 Zilliz 产品有任何问题,可添加小助手微信 “zilliz-tech” 加入交流群。

  • 欢迎关注微信公众号“Zilliz”,了解最新资讯。

发布主题

 
复制代码


/* 全局属性
复制代码


 * 页边距 padding:10px;
复制代码


 * 全文字体 font-family:system-ui,-apple-system;
复制代码


 * 英文换行 word-break:break-all;
复制代码


 */
复制代码


#nice {
复制代码


  font-family:system-ui, Pingfang-SC, sans-serif;
复制代码


  color: #3E3E3E;
复制代码


}
复制代码


复制代码


/* 段落,下方未标注标签参数均同此处
复制代码


 * 上边距 margin-top:5px;
复制代码


 * 下边距 margin-bottom:5px;
复制代码


 * 行高 line-height:26px;
复制代码


 * 词间距 word-spacing:3px;
复制代码


 * 字间距 letter-spacing:3px;
复制代码


 * 对齐 text-align:left;
复制代码


 * 颜色 color:#175FFF;
复制代码


 * 字体大小 font-size:15px;
复制代码


 * 首行缩进 text-indent:2em;
复制代码


 */
复制代码


#nice p {
复制代码


  font-family:system-ui, Pingfang-SC, sans-serif;
复制代码


  font-style: normal;
复制代码


  font-weight: 400;
复制代码


  font-size: 15px;
复制代码


  line-height: 200%;
复制代码


  text-align: justify;
复制代码


  letter-spacing: 0px;
复制代码


  color: #3E3E3E;
复制代码


}
复制代码


复制代码


/* 一级标题 */
复制代码


#nice h1 {
复制代码


  font-family:system-ui, Pingfang-SC, sans-serif;
复制代码


  margin-bottom: 0;
复制代码

行数:41

字数:1281

主题:自定义主题 1

自动保存成功

用户头像

Zilliz

关注

Data Infrastructure for AI Made Easy 2021-10-09 加入

还未添加个人简介

评论

发布
暂无评论
WIZMAP-大规模 embedding 向量的可视化交互工具_机器学习_Zilliz_InfoQ写作社区