加入收藏 | 设为首页 | 会员中心 | 我要投稿 汽车网 (https://www.0577qiche.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

微软研究人员提出Transformer视角算法,帮助研发通用型AI大型模型

发布时间:2023-04-17 09:15:41 所属栏目:外闻 来源:
导读:这让计算机视觉领域的相关研究人员不禁设想,是否可以利用类似的方式来解决通用的视觉问题?如果能同样解决视觉问题,那将为现在强大的语言模型装上眼镜,让它能去更广阔的物理世界进行探索。

要想实现这一目标,

这让计算机视觉领域的相关研究人员不禁设想,是否可以利用类似的方式来解决通用的视觉问题?如果能同样解决视觉问题,那将为现在强大的语言模型装上眼镜,让它能去更广阔的物理世界进行探索。

要想实现这一目标,一个重要的基础是视觉语言在建模和学习上的统一。然而,长期以来,研究人员一般采用 Transformer 架构解决自然语言领域的问题,而采用卷积神经网络处理各种视觉任务。

在清华大学自动化系读博期间,胡瀚就开始了对计算机视觉的研究。当时,他受到人类视觉机制的启发,尝试使用更全局系统的方式来解决视觉分割问题,并且对视觉基础理论也有了一定的掌握。

博士毕业后,他继续从事计算机视觉研究。在很早的时候,他就坚信要想实现更通用的人工智能,不同领域在建模方面的统一将是一个重要的基础。在2017 年 Transformer 出现后不久,他就看好这一架构的强大通用性,并开始积极尝试将 Transformer 引入到视觉领域中。他早期的尝试包括基于 Transformer 实现科学界首个端到端的物体检测器(2017年) [2],以及在 2019 年首次将 Transformer 用于视觉骨干建模[3],尽管效果不错,但这一神经网络遇到了实现效率问题而不太实用,也没有成为主流。

两年后,他于2021 年提出的 Swin Transformer 解决了其中的效率难题,从而推进了这一网络在视觉领域走向实用。在这个工作中,他创造性地提出了“移位窗口”方法,该方法无需同时处理数以千计的局部窗口,可以将需要处理的窗口数量降低 50 倍,这大大提升了计算的并行性,在 GPU 上取得了 3 倍的速度提升。

胡瀚和团队首次证明了 Transformer 网络能够在非常广泛的视觉问题中大幅超越卷积神经网络,推动该领域大规模兴起了对视觉 Transformer 的研究。“当时我们很快做了开源,把一些实现细节分享给了整个领域。有了这个基础,其他的研究者能够更快的跟进并且进行后续的研究,进而共同推进该领域的发展。”他说。

据悉,该成果获得了计算机视觉国际大会的最佳论文(马尔奖),这一奖项被视为国际计算机视觉领域的最高荣誉之一。同时,相关论文在一年多时间获得超过 5000 次引用和超过 10000 次 GitHub 标星。

“Swin Transformer 所解决的计算机视觉长期与自然语言的主流架构不匹配的问题是一个更宏大目标中的第一步,即实现和人脑一样用一个通用模型和类似的学习机制去解决各种各样的智能问题。”胡瀚表示,目前他正在继续攻克这个宏大目标上的各种挑战,比如如何有效地扩展计算机视觉和多模态模型并将其稀疏化的问题。

人脑具有的强大智能,以及能从少量样本中学习新智能的能力,很大程度上来自于其海量的百万亿级的神经连接。同时,需要说明的是,连接的稀疏性,又能让大脑变得非常节能。因此,开发有效的视觉模型和稀疏模型,对于实现更强、更具通用性的智能而言,这是非常关键的。

他通过解决训练稳定性、视觉任务分辨率鸿沟,以及基于自监督预训练解决海量标注数据需求的问题,成功地训练了拥有 30 亿参数的稠密视觉模型 Swin Transformer v2.0 版本[4]。作为截止 2022 年 8 月世界最大的稠密视觉模型,Swin Transformer v2.0 版本当时在多个重要的代表性视觉评测集中取得了新的记录。此外,胡瀚还参与开发了目前 GPU 上最高效的混合专家框架 Tutel 和用于计算机视觉的 Swin-MoE 模型。

在他看来,到北京也是冥冥之中的缘分驱使。“记得高考完找班主任老师给自己写寄语,他写了‘北上’这两个字,后来真的有幸北上到北京求学。后来,博士期间的导师周杰教授,给我们创造了引导为主,鼓励自由探索的氛围。这很适合我,让我的思维自主创新和自我求索方面的能力有了很大的提升。”

他认为,走上研究之路,是命运的安排。他觉得自己遇上了三个转折点:第一个是能够有幸从小乡村考入清华,和最优秀的同学一起学习生活,接受国内最好的教育。第二个是在读研时选择了人工智能方向,也遇到了适合自己的导师,亲眼见证当时发展不算最火热的人工智能,逐渐变得越来越重要,并不断地改变着世界的面貌。第三个是进入微软亚洲研究院工作,与国内人工智能方向最优秀的研究员和前辈合作,在一个适合做研究的土壤下生根发芽,做出了具有代表性的工作。

(编辑:汽车网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章