浙江大学丁勇教授团队成功研发高性能高计算效率的视频超分模型

作者：集小微 2024-12-24

来源：浙江大学集成电路学院 #视频超分# #浙江大学# #学研#

1.5w

研究内容

浙江大学集成电路学院丁勇教授团队，提出了视频超分模型CTVSR，其基于视觉Transformer模型结合帧内特征关系、建模帧间运动特征来实现视频超分辨率。该工作以题为“CTVSR: Collaborative Spatial–Temporal Transformer for Video Super-Resolution”发表于IEEE Transactions on Circuits and Systems for Video Technology (DOI: 10.1109/TCSVT.2023.3340439)。本文第一作者为浙江大学集成电路学院博士生汤峻。该工作得到了长三角科技创新共同体联合攻关和中央引导地方科技发展资金的资助。

研究亮点

通过提出了一个新型视觉Transformer模型CTVSR来实现视频超分辨率，其对帧内、帧间进行联合建模，结合了ViT framework的动态特性以及时间循环轨迹的时间全局性，同时实现了高性能指标PSNR/SSIM以及高计算效率；所提出的TDA子模块通过丢弃特征中不相关或者伪影区域来自适应地聚焦提取视频中的重要区域；DMCA子模块用于缓解视频中的遮挡、边界问题，双向帧提供的信息缓解了长序列建模中的误差累积缺陷；TEN子模块来增强全局时间轨迹中帧间相关性的表达能力，其缓解了以往由于加权和导致的混叠问题，同时避免了过多的信息损失。

图高性能高计算效率的视频超分模型架构图

研究背景

视频超分辨率旨在基于深度学习技术将连续低分辨率视频通过神经网络推理出相应的连续高分辨率视频。该项技术的关键在于利用深度神经网络建模出一个同时在空间、时间维度上提取相关性特征的时空网络，来恢复出较好的细节特征。

视频超分辨率属于视觉恢复任务，其研究难点在于同时做好低频信息和高频信息的平衡、全局信息和局部信息提取的平衡、相似信息利用权值的平衡。视频超分的网络架构主要分为四类：CNN-based，Recurrent-based，ViT-based和Frequency-based，近年来，该领域的相关研究人员致力于研究出同时满足上述平衡的网络架构。高质量视频一直是如今各种多媒体所必须的，因此如何以高计算效率实现高性能视频超分十分具有科研与工程价值。

研究团队简介

丁勇

浙江大学集成电路学院教授、博士生导师，国家重点研究计划首席科学家

主要研究方向包括集成电路设计与验证和人工智能算法等。先后主持国家科技重大专项、国家863计划、国家科技支撑计划、国家重点研发计划和省尖兵研发攻关计划等十多项科研项目，在ISSCC、CVPR、ISCAS等多个顶级国际会议及IEEE Journal of Solid State Circuits、IEEE Transactions on Circuits and Systems、Applied Optics、Electronics Letters等高水平期刊杂志发表学术论文120余篇，其中，在有着“集成电路设计领域奥林匹克大会”之称的ISSCC上发表3篇，IEEE JSSC、TCAS和CVPR、ECCV、ISCAS等行业旗舰期刊和会议论文10余篇，出版英文专著2部，申请国家发明专利70余项、美国专利1项，制定行业团体标准3项，获得“中国电子学会电子信息科学技术二等奖”、“中国专利优秀奖”和“信息产业重大技术发明”等多项科技奖励。

担任浙江省半导体行业协会副理事长兼秘书长、杭州国家集成电路设计产业化基地（杭州国家芯火平台）总经理、浙江省CMOS集成电路成套工艺与设计技术创新中心副主任、浙江省集成电路产业创新联盟常务副理事长、中国软件定义芯片专家委员会委员、全国集成电路专业职业教育标准建设专家委员会副主任、浙江省智能制造委员会委员等社会职务。