当前位置:首页>编程日记>正文

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出...

导读:随着以深度学习为代表的AI技术的快速发展,智能模型的训练应用模式逐渐由“大炼模型”向“炼大模型”转变。过去,人们根据不同的任务,利用特定的标注数据训练大量领域专用的模型进行应用,而当下,大规模预训练模型使得微调单一模型应用于多个下游任务成为可能。因此,利用大量无监督数据训练更加通用的大模型成为了热门的研究方向。

大模型研究在近年来发展迅速,模型的参数量以惊人的速度扩展,从GPT-3模型的1750亿到智源悟道模型的1.75万亿,实现模型参数量量级的跃进仅仅用了1年时间。一些研究已经发现大模型参数的不断增长使得模型的性能获得了提升,然而,持续增长的训练负担和不断产生的新问题也引发了学术界的思考:大模型未来该向什么方向发展?有哪些大模型相关的技术需要进一步探索?

为此,北京智源人工智能研究院在大模型逐渐发展成为AI基础设施的重要里程碑之际,联合悟道核心团队和众多中国大模型领域前沿研究学者,给出大模型技术路线导引,讨论未来发展方向。

《A Roadmap for Big Model》由悟道大模型研究项目负责人,智源学术副院长,清华大学计算机系教授唐杰牵头,从大模型基础资源、大模型构建、大模型关键技术与大模型应用探索4个层面出发,对15个具体领域的16个相关主题进行全面介绍和探讨。下图给出了文章的整体框架结构和15个领域的具体内容。其中,资源层的计算系统领域中,除了对系统本身的介绍外,还包括了独立的并行计算章节,因此总计形成了16个主题。下面,我们将对文章的每个主题内容进行简要的介绍和概括。(点击阅读原文即可下载查看报告)

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图01

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图02

文章《A Roadmap for Big Model》整体框架图

  • 知识

知识是指现实世界中存在的大量事实,在计算机科学中通常以知识图谱的形式进行表示和存储。许多研究发现,缺乏基本的知识和常识仍是目前大模型面临的重要问题之一。因此,越来越多的研究工作尝试将大模型与知识相结合。该章节从知识的基本定义、类别和整合技术开始介绍,推进到知识与大模型相结合的研究工作,包括利用大模型进行知识获取和利用知识增强大模型,最终给出了大模型在知识方向上的未来发展见解。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图03

  • 数据

数据是人工智能的三大基本要素之一,也是大模型的学习来源,在大模型训练过程中扮演着“学习资料”的角色。因此,数据集的规模和质量与训练得到的模型性能有着密不可分的关系。该章节主要总结了现有的大模型数据集建设情况,介绍了如何构建高质量的数据集,归纳了当前数据集中一些常见的偏置与伦理问题,并最终提出了一些大模型相关的数据集研究方向。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图04

  • 计算系统

随着人工智能领域的高速发展,包括大模型在内的智能模型复杂度和深度越来越高,模型的训练推理对GPU计算能力的需求也在不断增加,越来越多的大规模计算集群和超算系统被构建出来用于提供算力支撑。该章节介绍了当前存在的大规模计算系统,并给出了它们支持大模型训练的实例。随后,章节对于计算系统背后的软硬件发展情况,进行了详细介绍。最后根据当前计算系统中的局限性,对未来的计算系统进行了展望。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图05

  • 并行计算

大模型参数量的迅速扩张使得算力需求大幅增加,对底层的计算系统提出了严峻挑战,除了堆积算力资源和提升单块GPU计算性能的方法外,采用并行计算的模式进行模型训练,分散算力支撑压力,也是一个潜在的解决方案。该章节首先从不同角度对计算系统的发展历程进行回顾,随后从技术角度介绍了多种不同的并行加速模式,并最终提出了计算系统相关的未来发展方向建议。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图06

  • 语言模型

语言是人类在对话、写作和其他场景中传达自己思想和感受的载体。自然语言处理的目标是跨越人类语言和计算机语言间的鸿沟,尝试让计算机理解人类语言和世界之间的关系。因此,语言大模型是建模语义信息的一类重要模型。该章节首先回顾了语言模型发展历程,介绍了一系列不同的语言模型建模范式。随后,给出了基于语言模型的一些常见下游任务。最后,该章节总结了语言大模型的新兴研究方向。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图07

  • 视觉模型

视觉作为智能体感知世界的一项重要能力,是智能模型建模的重要目标之一。设计精巧的视觉大模型能够感知视觉并处理各种下游任务,正在为现代信息社会的许多方面带来前所未有的革命。该章节首先简要介绍了视觉大模型的基础架构——深度卷积神经网络,随后依据监督程度的不同对模型进行了分类介绍。接下来,章节给出了基于视觉大模型的一些下游任务应用,并在最后给出了未来发展方向的见解。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图08

  • 多模态模型

人脑是一个复杂的智能系统,可以处理来自多种感官的信息,包括语言、图像、视频、音频等多个模态,从而帮助人类更准确有效地完成理解和决策任务。为了模仿人类的这些核心能力,探索多模态大模型的构建是非常有必要的。该章节首先介绍了多模态大模型如何处理不同模态的数据,随后对现有模型进行了归纳。接下来,文章罗列了一系列用于多模态预训练的任务和多模态大模型应用的下游任务,并在最后提出了一些有价值的研究方向。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图09

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图10

  • 常识推理

以深度学习为代表的人工智能技术已经基本实现了视觉、听觉等感知智能,但在思维、推理等认知智能的建模中,仍然面临着不小的困难。这是因为人类可以通过推理路径和节点来理解整个推理过程,但目前的深度学习算法将解决大多数问题视为一个黑盒模型。该章节以常识推理为例,介绍了常识推理的基本概念,包括常识推理的定义、方法和基准,并在最后给出了未来这一方向上的研究重点。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图11

  • 理论和可解释性

近年来,大模型的研究取得了巨大的成果,但大多数成就都是以实践试错模式取得的,缺乏坚实的理论基础和可解释性。对理论和可解释性的研究可以为大型模型需要什么以及如何改进提供证据和支撑,值得进一步探索。该章节首先介绍了大模型背后最基础的数学理论,随后归纳总结了在大模型可解释性方向上的研究成果,最后从理论研究与可解释性研究两个方向上分别提出了未来研究方向建议。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图12

  • 可靠性和安全性

包括大模型在内的人工智能技术正以前所未有的水平从研究实验室走向我们的日常生活,例如人脸识别、个人信息检索等等。然而,如果不考虑人工智能的技术安全性和可靠性,其进展可能受到阻碍,甚至会带来负面影响。该章节归纳了目前大模型相关领域存在的可靠性和安全性问题,对对抗攻击和数据投毒两种攻击方式和相应预防措施进行了介绍,并在最后提出了提升大模型可靠性和安全性的研究方向。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图13

  • 治理

大模型及其相关技术的快速发展是一把“双刃剑”,它为人工智能的研究和应用带来了积极推动作用的同时,也带来了一些潜在的问题,例如隐私泄露和不公平的模型输出。这意味着通过大模型治理来平衡技术快速发展和技术安全很有必要。该章节首先介绍了大模型治理的基本概念和目标,随后总结了模型治理这一方向上已有的工作成果。最后,该章节从全局角度和具体目标角度给出了一些开放问题以供思考。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图14

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图15大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图16

  • 评估

随着大模型数量的不断增加,提出公平的评测体系对大模型的性能、效率等方面进行评估变得越来越重要。有效的模型评测不仅能够帮助不同模型间进行公平比较,还可以协助模型算法的迭代改进,促进大模型的进步发展。该章节首先罗列了大模型效果评测和效率评测两方面的基准数据集,并对应提出了其中存在的问题,最后,针对提出的问题,该章节提出了解决的方案和未来的研究方向。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图17

  • 对话

人工智能的一个长期目标是建立智能的开放域对话系统,该系统可以与人类进行连贯且有吸引力的对话。尽管该方向的学术研究已经持续了很长一段时间,但开放域对话系统的构建仍然是一项极具挑战性的任务。该章节主要介绍了利用大模型进行对话方向研究的相关工作,包括已有的对话大模型构建成果和基于大模型的对话系统研究中主要面临的学术难题。该章节在最后也对对话大模型研究的挑战和未来方向进行了归纳总结。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图18

  • 文本生成

文本生成是将语言或非语言输入转换为文本输出的任务,在现实世界中有一系列重要的应用,例如文本摘要、问答响应生成、图像字幕等等。文本生成的目标是输出流畅、语法正确、语义合理、忠实于输入且易于理解的文本信息。该章节对文本生成任务根据输入输出信息的模态进行了分类,并分别介绍了大模型相关的研究进展情况。随后,该章节介绍了用于文本生成的大模型架构,并在最后提出了有待进一步探索的研究方向。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图19

  • 机器翻译

机器翻译是一种利用计算机自动翻译人类语言的技术。自1949年沃伦·韦弗正式提出机器翻译概念以来,该技术已经有70多年的历史。大模型的出现为机器翻译领域的研究注入了新鲜血液,一些基于大模型的机器翻译尝试已经取得了良好的效果。该章节从技术层面介绍了大模型在机器翻译这个下游任务上的应用情况,包括不同语言间的翻译和音频语言的翻译,并在最后总结给出了未来的研究方向。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图20

  • 蛋白质研究

蛋白质在人体中起到了关键的作用,是不同组织器官所必需的成分。因此,了解蛋白质的功能并设计具有所需功能的蛋白质对疾病的发现和治疗至关重要。大模型的快速发展和介入使得该交叉领域取得了重大突破,甚至在一些特定任务中超过了人类水平。该章节介绍了大模型与蛋白质研究相结合的研究工作,包括功能预测、结构预测和蛋白质设计,并给出了一些有价值的未来发展方向。该方向牵头学者如下:

大模型技术实践路线图出炉,唐杰牵头,近百位智源、清华、北大、MILA等顶尖研究者联合推出... 配图21

《A Roadmap for Big Model》涵盖了从大模型构建前提条件开始,到大模型应用结束的全流程研究工作,共计介绍了16个具体的研究主题。不管是在各个领域研究的横向发展历程上,还是整个大模型的纵向应用流程中,都梳理出了清晰的脉络,能够帮助读者更好的理解大模型的发展历史和研究现状,对于大模型领域的未来发展也能起到指引性的作用,是一篇极具价值的研究综述。

下载方式

Arxiv:https://arxiv.org/abs/2203.14101

智源社区下载:https://baai.org/l/BMRoadmap,或点击阅读原文获取


http://www.coolblog.cn/news/c02992eafea66227.html

相关文章:

  • asp多表查询并显示_SpringBoot系列(五):SpringBoot整合Mybatis实现多表关联查询
  • s7day2学习记录
  • 【求锤得锤的故事】Redis锁从面试连环炮聊到神仙打架。
  • 矿Spring入门Demo
  • 拼音怎么写_老师:不会写的字用圈代替,看到孩子试卷,网友:人才
  • Linux 实时流量监测(iptraf中文图解)
  • Win10 + Python + GPU版MXNet + VS2015 + RTools + R配置
  • 美颜
  • shell访问php文件夹,Shell获取某目录下所有文件夹的名称
  • 如何优雅的实现 Spring Boot 接口参数加密解密?
  • LeCun亲授的深度学习入门课:从飞行器的发明到卷积神经网络
  • Mac原生Terminal快速登录ssh
  • 支撑微博千亿调用的轻量级RPC框架:Motan
  • java受保护的数据与_Javascript类定义语法,私有成员、受保护成员、静态成员等介绍...
  • mysql commit 机制_1024MySQL事物提交机制
  • 法拉利虚拟学院2010 服务器,法拉利虚拟学院2010
  • 2019-9
  • jquery 使用小技巧
  • vscode pylint 错误_将实际未错误的py库添加到pylint白名单
  • 科学计算工具NumPy(3):ndarray的元素处理
  • linux批量创建用户和密码
  • 工程师在工作电脑存 64G 不雅文件,被公司开除后索赔 41 万,结果…
  • js常用阻止冒泡事件
  • newinsets用法java_Java XYPlot.setInsets方法代碼示例
  • 气泡图在开源监控工具中的应用效果
  • 各类型土地利用图例_划重点!国土空间总体规划——土地利用
  • php 启动服务器监听
  • dubbo简单示例
  • [iptables]Redhat 7.2下使用iptables实现NAT
  • Ubuntu13.10:[3]如何开启SSH SERVER服务
  • 【设计模式】 模式PK:策略模式VS状态模式
  • JS实现-页面数据无限加载
  • CSS小技巧——CSS滚动条美化
  • 最新DOS大全
  • Django View(视图系统)
  • 阿里巴巴分布式服务框架 Dubbo
  • 阿里大鱼.net core 发送短信
  • 程序员入错行怎么办?
  • Sorenson Capital:值得投资的 5 种 AI 技术
  • 两张超级大表join优化
  • Arm芯片的新革命在缓缓上演
  • 第九天函数
  • Linux软件安装-----apache安装
  • HDU 5988 最小费用流
  • 《看透springmvc源码分析与实践》读书笔记一
  • 正式开课!如何学习相机模型与标定?(单目+双目+鱼眼+深度相机)
  • nagios自写插件—check_file
  • python3 错误 Max retries exceeded with url 解决方法
  • 通过Spark进行ALS离线和Stream实时推荐
  • 行为模式之Template Method模式