计算机视觉
1 人感兴趣 · 131 次引用
- 最新
- 推荐
为什么我们拥有庞大的语言模型,而 Vision Transformers 的规模却很小?
编者按:本文探讨了语言模型为何会比视觉模型的参数数量大得多的原因,并详细介绍了传统ViT训练方法在扩展时出现不稳定性的问题。
超越 YOLOv8,飞桨推出精度最高的实时检测器 RT-DETR!
我们正式推出了——RT-DETR (Real-Time DEtection TRansformer) ,一种基于 DETR 架构的实时端到端检测器,其在速度和精度上取得了 SOTA 性能。
“分割一切”大模型 SAM、超轻量 PP-MobileSeg、工业质检工具、全景分割方案,PaddleSeg 全新版本等你来体验!
图像分割是计算机视觉的一项基础技术,其目标是将图像中的像素按内容分成不同的类别。它在许多领域有重要应用,比如自动驾驶、工业质检、医疗图像分析、遥感图像解译等。
拯救脂肪肝第一步!以飞桨 3D 医疗影像分割方案 MedicalSeg 自主诊断脂肪肝
今天带来的是飞桨开发者技术专家冯嘉骏利用飞桨3D医疗影像分割方案MedicalSeg自主诊断脂肪肝的案例分享,欢迎大家关注~
一个基于序列的弱监督视觉信息抽取学习框架
论文提出了一个统一的弱监督学习框架TCPN用于视觉信息提取,它引入了一种有效的编码器、一种新的训练策略和一种可切换的解码器。该方法在EPHOIE数据集上显示出了显著的提高和在SROIE数据集上的竞争性能,充分验证了其有效性。
微帧自研|客观评价模型与主观 DMOS 分数拟合的分享与实用性探讨
实际上,在日常实操过程中,主客观之间拟合的重要性不容小觑,除了能够衡量一个客观评价指标本身的好坏,更能帮助我们全方位地评估画面质量,使得各客观指标的主观感受趋于统一;另外,也能帮助我们为参数设置提供依据,在平衡压缩率与画质时,便于决策。
Stable Diffusion 原理详解
本文向大家介绍了图像生成领域最前沿的Stable Diffusion模型。本质上Stable Diffusion属于潜在扩散模型(Latent Diffusion Model)。潜在扩散模型在生成细节丰富的不同背景的高分辨率图像方面非常稳健,同时还保留了图像的语义结构。
PyTorch 深度学习实战 | 计算机视觉
深度学习领域技术的飞速发展,给人们的生活带来了很大改变。例如,智能语音助手能够与人类无障碍地沟通,甚至在视频通话时可以提供实时翻译;将手机摄像头聚焦在某个物体上,该物体的相关信息就会被迅速地反馈给使用者;在购物网站上浏览商品时,机器也在同时
图片动画化应用中的动作分解方法
在本文,我们通过引入先验,对动作进行分解,可以从稀疏光流图估计出密集光流图,通过将密集光流图输入到变形模型中,可以实现从驱动帧到静态图的转换,这个转换是实现图片动画化的一个重要技术。