
产品中心
数字化服务
创新应用
支持中心
走进理光
2025年6月11日至15日,全球计算机视觉领域的顶尖学术盛会 CVPR(IEEE/CVF Conference onComputer Vision andPattern Recognition)在美国田纳西州纳什维尔举办。我司计算机视觉研究员赵颖博士的论文入选CVPR2025Workshop-SyntaGen。
本文将精细解读此论文,带您沉浸式了解生成模型与计算机视觉应用交叉领域的突破性进展。
论文链接:
SyntaGen Workshop链接:
关于 CVPR2025 及 SyntaGen Workshop
CVPR2025
CVPR是国际计算机视觉与模式识别领域的顶级会议,由电气电子工程师学会(IEEE)举办。2025的研究主题包括:图像和视频的合成与生成、三维视觉、人体行为与姿态理解、视觉与语言(多模态)、低级视觉处理(如去噪/ 超分辨)、目标检测与分割、自主驾驶与机器人、对抗攻防、安全公平性等方向。初步统计显示,图像与视频生成相关论文数量仍居首位,3D视觉类紧随其后,人类行为理解以及多模态视觉 - 语言交叉研究也是占比很高的主题。
SyntaGen Workshop
计算机视觉领域正因生成模型的飞速发展而发生深刻变革,特别是在文本到图像生成方面——如Imagen 3、StableDiffusion 3、Flux和DALLE-3等模型,以及文本到视频生成技术(如Sora、Stable VideoDiffusion和Meta MovieGen)。在3D生成领域,Zero-123、Instant3D和大型重建模型(LRM)等突破性技术不断拓展3D内容创作的边界。
这些创新催生了高度逼真且多样化的合成视觉数据集,这些数据集不仅带有标注信息,还包含丰富的场景变体,为物体检测、图像分割、表征学习和场景理解等算法的训练与评估提供了宝贵资源。第二届SyntaGen研讨会旨在推动该领域的协作与知识共享,汇聚专家与从业者共同推动生成模型与合成视觉数据集的发展迈向新高度。
摘要
图1. AnomalyHybrid是一个领域无关的生成框架,通过结合参考图像(绿色箭头)与目标图像(黄色箭头)的方式,为各种应用生成逼真的正常及异常样本,从而提升下游任务的性能。
异常生成是缓解异常检测任务数据稀缺的有效方法。现有的大多数研究虽然在工业异常生成方面表现出色,但是依赖于多个专家或大型生成模型,并且鲜有能够推广到其他应用中的异常生成。在本文中,我们提出了AnomalyHybrid,这是一个领域无关的框架,旨在通过简单地结合参考图像和目标图像生成真实且多样的异常。AnomalyHybrid是一个基于生成对抗网络(GAN)的框架,包含深度解码器和边缘解码器,分别将参考图像的外观融入目标图像的深度和边缘结构中。在深度解码器的帮助下,AnomalyHybrid特别能够生成深度值变化的异常,如凸起和凹陷。此外,它放宽了边缘解码器的细粒度结构控制,从而带来了更多的多样性。AnomalyHybrid无需使用人工标注,可以轻松地通过具有不同增强的同一图像的颜色、深度和边缘集合进行训练。在HeliconiusButterfly、MVTecAD和MVTec3D数据集上进行的大量实验表明,AnomalyHybrid在异常生成及其下游的异常分类、检测和分割任务中超越了基于GAN的最新技术。在MVTecAD数据集上,AnomalyHybrid在异常生成方面达到了2.06/0.32的IS/LPIPS,在使用ResNet34进行异常分类时达到了52.6的准确率,在使用简单的UNet进行图像/像素级异常检测时达到了97.3/72.9的AP。
核心要点
AnomalyHybrid是一个领域无关的生成框架,通过使用具有两个解码器的生成对抗网络(GAN)架构,在各种应用中生成逼真的正常及异常样本,从而增强异常检测,展示了在多个数据集上优越的性能,而无需依赖于人工标注。
图2. AnomalyHybrid 的生成结果结合了参考图像的外观特征与目标图像的深度及边缘结构特征。
论文试图解决什么问题?
本文试图解决以下问题:
1.任务
2.数据稀缺
3.泛化能力
4.异常的多样性
5.模态的整合
论文提出的方法是什么?
本文提出了以下方法,AnomalyHybrid,逐步进行:
1.领域无关框架
2.生成对抗网络(GAN)架构
3.多模态条件控制
4.无监督训练
5.异常生成
6.泛化能力
7.广泛实验
8.卓越性能
9.多功能性
在哪些数据上进行了实验?
本文对以下数据集进行了实验:
图3. AnomalyHybrid 在(Left)MVTecAD及(Right)MVTec3D 上的异常生成及检测示例图。
图4. AnomalyHybrid 在HeliconiusButterfly上的异常生成示例图。
目前,我们在异常检测方向已经积累了5篇论文,分别发表于ICME2022、CVPR2023主会及CVPR2024、ECCV2024、CVPR2025 Workshop。此外,我们参与组织的Anomaly Detection with Foundation Models(ADFM)Workshop将在ICCV2025举办。
一直以来,理光坚持积极营造创新氛围,探索前沿技术,持续投入资源,为创新奠定坚实基础。自研究院成立开始,计算机视觉始终是我们深耕的研发方向。未来,理光期望通过不断创新,深入人工智能技术研发,用更前沿的算法、更高效的解决方案,赋能行业变革。
| 关于理光集团
理光集团的全球总部设立在日本东京,公司在全球约200个国家和地区提供数字化服务、打印和成像解决方案,赋能客户数字化转型,帮助他们在业务上取得成功(截至2024年3月31日的财政年度,集团合并销售额为23,489亿日元)。
悦享工作自公司成立以来的80余年里,我们一直植根用户需求,持续赋能人类“办公方式的变革”。理光今后也将作为领先企业,继续想象”工作”的未来,并通过工作场所的变革激发人们的潜能和创造力,为实现可持续发展的社会做出贡献。
欲了解更多信息,请访问
https://www.ricoh.com.cn/