写点什么

计算机视觉

1 人感兴趣 · 131 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/ef/ef22d6fa64cd85f515d3620961ba0c34.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、强化学习、元学习)

人工智能领域:面试常见问题超全(深度学习基础、卷积模型、对抗神经网络、预训练模型、计算机视觉、自然语言处理、推荐系统、模型压缩、强化学习、元学习)

Video-LLaMA 开源,大语言模型也能读懂视频了!

用户头像
Zilliz
06-15

本文设计了两个分支,即视觉语言分支和音频语言分支,分别将视频帧和音频信号转换为与 LLM 的文本输入兼容的查询表示。

https://static001.geekbang.org/infoq/ef/ef22d6fa64cd85f515d3620961ba0c34.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深度学习应用篇 - 计算机视觉 - 视频分类 [8]:时间偏移模块(TSM)、TimeSformer 无卷积视频分类方法、注意力机制

视频流的爆炸性增长为以高精度和低成本执行视频理解任务带来了挑战。传统的2D CNN计算成本低,但无法捕捉视频特有的时间信息;3D CNN可以得到良好的性能,但计算量庞大,部署成本高。作者提出了一种通用且有效的时间偏移模块(TSM),它通过沿时间维度移动部

https://static001.geekbang.org/infoq/ef/ef22d6fa64cd85f515d3620961ba0c34.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深度学习应用篇 - 计算机视觉 -OCR 光学字符识别 [7]:OCR 综述、常用 CRNN 识别方法、DBNet、CTPN 检测方法等、评估指标、应用场景

OCR(Optical Character Recognition,光学字符识别)是指对图像进行分析识别处理,获取文字和版面信息的过程,是典型的计算机视觉任务,通常由文本检测和文本识别两个子任务构成。

https://static001.geekbang.org/infoq/ef/ef22d6fa64cd85f515d3620961ba0c34.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深度学习应用篇 - 计算机视觉 - 语义分割综述 [6]:DeepLab 系列简介、DeepLabV3 深入解读创新点、训练策略、主要贡献

作者发现Deep Convolutional Neural Networks (DCNNs) 能够很好的处理的图像级别的分类问题,因为它具有很好的平移不变性(空间细节信息已高度抽象),但是DCNNs很难处理像素级别的分类问题,例如姿态估计和语义分割,它们需要准确的位置信息。

https://static001.geekbang.org/infoq/ef/ef22d6fa64cd85f515d3620961ba0c34.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深度学习应用篇 - 计算机视觉 - 语义分割综述 [5]:FCN、SegNet、Deeplab 等分割算法、常用二维三维半立体数据集汇总、前景展望等

目前,计算机视觉是深度学习领域最热门的研究领域之一。从广义上来说,计算机视觉就是要“赋予机器自然视觉的能力”。实际上,计算机视觉本质上就是研究视觉感知问题,其目标就是对环境的表达和理解,核心问题是研究如何对输入的图像信息进行组织,对物体和场

https://static001.geekbang.org/infoq/ef/ef22d6fa64cd85f515d3620961ba0c34.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深度学习应用篇 - 计算机视觉 - 目标检测 [4]:综述、边界框 bounding box、锚框(Anchor box)、交并比、非极大值抑制 NMS、SoftNMS

对计算机而言,能够“看到”的是图像被编码之后的数字,它很难理解高层语义概念,比如图像或者视频帧中出现的目标是人还是物体,更无法定位目标出现在图像中哪个区域。目标检测的主要目的是让计算机可以自动识别图片或者视频帧中所有目标的类别,并在该目标周

https://static001.geekbang.org/infoq/ef/ef22d6fa64cd85f515d3620961ba0c34.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深度学习应用篇 - 计算机视觉 - 图像分类 [3]:ResNeXt、Res2Net、Swin Transformer、Vision Transformer 等模型结构、实现、模型特点详细介绍

相较于VGG的19层和GoogLeNet的22层,ResNet可以提供18、34、50、101、152甚至更多层的网络,同时获得更好的精度。但是为什么要使用更深层次的网络呢?同时,如果只是网络层数的堆叠,那么为什么前人没有获得ResNet一样的成功呢?

https://static001.geekbang.org/infoq/b2/b28ed040fd3e0ee4df3eba9fb9bc57ee.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深度学习应用篇 - 计算机视觉 - 图像分类 [2]:LeNet、AlexNet、VGG、GoogleNet、DarkNet 模型结构、实现、模型特点详细介绍

LeNet是最早的卷积神经网络之一<sup>[1]</sup>,其被提出用于识别手写数字和机器印刷字符。1998年,Yann LeCun第一次将LeNet卷积神经网络应用到图像分类上,在手写数字识别任务中取得了巨大成功。算法中阐述了图像中像素特征之间的相关性能够由参数共享的卷积

深度学习应用篇 - 计算机视觉 - 图像增广 [1]:数据增广、图像混叠、图像剪裁类变化类等详解

在图像分类任务中,图像数据的增广是一种常用的正则化方法,主要用于增加训练数据集,让数据集尽可能的多样化,使得训练的模型具有更强的泛化能力,常用于数据量不足或者模型参数较多的场景。除了 ImageNet 分类任务标准数据增广方法外,还有8种数据增广方式

https://static001.geekbang.org/infoq/ef/ef22d6fa64cd85f515d3620961ba0c34.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深度学习进阶篇 [9]:对抗生成网络 GANs 综述、代表变体模型、训练策略、GAN 在计算机视觉应用和常见数据集介绍,以及前沿问题解决

所谓生成模型,就是指可以描述成一个生成数据的模型,属于一种概率模型。维基百科上对其的定义是:在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。它给观测值和标注数据序列指定一个联合概率分布。

https://static001.geekbang.org/infoq/fd/fd403dee9daaefbf9e100f583dba0c6f.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

为什么我们拥有庞大的语言模型,而 Vision Transformers 的规模却很小?

编者按:本文探讨了语言模型为何会比视觉模型的参数数量大得多的原因,并详细介绍了传统ViT训练方法在扩展时出现不稳定性的问题。

https://static001.geekbang.org/infoq/ef/ef22d6fa64cd85f515d3620961ba0c34.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深度学习基础入门篇 [8]::计算机视觉与卷积神经网络、卷积模型 CNN 综述、池化讲解、CNN 参数计算

计算机视觉作为一门让机器学会如何去“看”的学科,具体的说,就是让机器去识别摄像机拍摄的图片或视频中的物体,检测出物体所在的位置,并对目标物体进行跟踪,从而理解并描述出图片或视频里的场景和故事,以此来模拟人脑视觉系统。因此,计算机视觉也通常被

超越 YOLOv8,飞桨推出精度最高的实时检测器 RT-DETR!

我们正式推出了——RT-DETR (Real-Time DEtection TRansformer) ,一种基于 DETR 架构的实时端到端检测器,其在速度和精度上取得了 SOTA 性能。

CV 领域的 ChatGPT?MetaAI 推出“最强”大视觉模型 SAM

用户头像
Zilliz
04-23

随着 ChatGPT 引起一波又一波的“GPT热潮”,自然语言领域又一次成为了人工智能的讨论焦点。大家不由得思考,计算机视觉领域里是否会出现这样一个堪称划时代的模型?

“分割一切”大模型 SAM、超轻量 PP-MobileSeg、工业质检工具、全景分割方案,PaddleSeg 全新版本等你来体验!

图像分割是计算机视觉的一项基础技术,其目标是将图像中的像素按内容分成不同的类别。它在许多领域有重要应用,比如自动驾驶、工业质检、医疗图像分析、遥感图像解译等。

https://static001.geekbang.org/infoq/7b/7b7b68a92a4c63c889d090f6751459e4.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

前沿成果 | 澳鹏 Appen 团队两篇研究论文被国际顶会收录

澳鹏Appen数据科学团队发表的两篇论文分别被国际顶级AI/ML会议48th IEEE ICASSP及CHI 2023收录。

拯救脂肪肝第一步!以飞桨 3D 医疗影像分割方案 MedicalSeg 自主诊断脂肪肝

今天带来的是飞桨开发者技术专家冯嘉骏利用飞桨3D医疗影像分割方案MedicalSeg自主诊断脂肪肝的案例分享,欢迎大家关注~

https://static001.geekbang.org/infoq/e4/e4f44b9ed5e535dda387a463bdd002a8.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一个有效的图表图像数据提取框架

建立了可以有效地处理各种图表数据,而不需要做出启发式的假设的鲁棒Box detector系统;提出了一种网络来测量图例匹配阶段图例和检测元素之间的特征相似性;提供了一个关于从信息图表中获取原始表格的baseline,并发现了一些关键的因素来提高各个阶段的性能。

基于 PaddleOCR 的多视角集装箱箱号检测识别

集装箱号是指装运出口货物集装箱的箱号,填写托运单时必填此项。标准箱号构成基本概念:采用ISO6346(1995)标准

https://static001.geekbang.org/infoq/70/7046e8fd5f4767ff45eab3624812a9d2.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

一个基于序列的弱监督视觉信息抽取学习框架

论文提出了一个统一的弱监督学习框架TCPN用于视觉信息提取,它引入了一种有效的编码器、一种新的训练策略和一种可切换的解码器。该方法在EPHOIE数据集上显示出了显著的提高和在SROIE数据集上的竞争性能,充分验证了其有效性。

https://static001.geekbang.org/infoq/49/4956ac06a13fd920da5495ec8cf94bb6.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

微帧自研|客观评价模型与主观 DMOS 分数拟合的分享与实用性探讨

实际上,在日常实操过程中,主客观之间拟合的重要性不容小觑,除了能够衡量一个客观评价指标本身的好坏,更能帮助我们全方位地评估画面质量,使得各客观指标的主观感受趋于统一;另外,也能帮助我们为参数设置提供依据,在平衡压缩率与画质时,便于决策。

https://static001.geekbang.org/infoq/fc/fc87da17d34d456d117b1528b4a6ddd1.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Stable Diffusion 原理详解

用户头像
jarodyv
03-10

本文向大家介绍了图像生成领域最前沿的Stable Diffusion模型。本质上Stable Diffusion属于潜在扩散模型(Latent Diffusion Model)。潜在扩散模型在生成细节丰富的不同背景的高分辨率图像方面非常稳健,同时还保留了图像的语义结构。

https://static001.geekbang.org/infoq/3c/3ca5f759370a6e61f3579e735bb9a575.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

PyTorch 深度学习实战 | 计算机视觉

用户头像
TiAmo
03-10

深度学习领域技术的飞速发展,给人们的生活带来了很大改变。例如,智能语音助手能够与人类无障碍地沟通,甚至在视频通话时可以提供实时翻译;将手机摄像头聚焦在某个物体上,该物体的相关信息就会被迅速地反馈给使用者;在购物网站上浏览商品时,机器也在同时

https://static001.geekbang.org/infoq/01/01f1c5c69a8a838988d6d62523703b0f.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

图片动画化应用中的动作分解方法

在本文,我们通过引入先验,对动作进行分解,可以从稀疏光流图估计出密集光流图,通过将密集光流图输入到变形模型中,可以实现从驱动帧到静态图的转换,这个转换是实现图片动画化的一个重要技术。

计算机视觉_计算机视觉技术文章_InfoQ写作社区