复旦大学考研(复旦大学考研分数线)



复旦大学考研,复旦大学考研分数线

来源:高校人工智能与大数据创新联盟

复旦MOSS十年磨一剑。大模型时代,复旦大学正在闯出一条人工智能新路。

ChatGPT的革命性体现在大模型的“涌现能力”上。2023年上半年,复旦MOSS、百度文心、阿里通义、华为盘古、讯飞星火、商汤日日新……国内外近千款大模型竞技角逐。这是一条“狂飙”的新赛道。2022年底,对话式大型语言模型Chat GPT火爆出圈,激起AI领域“千层浪”,也带动大模型这一重要的底层基座变得炙手可热。今年以来,国内“千模大战”趋于白热化。

作为生成式人工智能的技术底座,大模型无疑是兵家必争之地。科技部中国科学技术信息研究所发布的《中国人工智能大模型地图研究报告》显示,国内大模型的“出产地”集中在北京、上海、广东和浙江等省市,这4个地方也是近3年人工智能服务器采购数量最高的地区。

在复旦大学计算机学院教授、复旦MOSS系统负责人邱锡鹏看来,争夺大模型的技术底座话语权,意义重大。相比于国外技术实力,目前国内大模型还有一定差距,体现在语料清洗、工程、算法等方面,对自主研发的要求很高。再往生态圈延伸,国内大模型需要从头到底有一套自主研发的技术,适配国内的配套硬件,保障在任何环节不被卡脖子。邱锡鹏认为,在国内城市中,上海在前沿科技领域具有独特的优势,体现在人工智能企业数量多、能级高,从底层技术到大模型、算力,从系统设计到应用,全链条企业都有涉及,更容易从生态上做规划。就在近日,《上海市推动制造业高质量发展三年行动计划(2023-2025年)》出炉,其中对大模型、算力等多方面作出指引,提出“瞄准人工智能技术前沿,构建通用大模型,面向垂直领域发展产业生态,建设国际算法创新基地”。邱锡鹏认为,上海应发挥自身优势,在AI大模型领域走出有中国特色的创新路。

邱锡鹏强调,过去5个月来,复旦MOSS系统日夜成长,不断迭代优化,比如:4月20日,第三轮迭代版本MOSS003大模型上线,成为国内首个插件增强的开源对话语言模型。“相比2月‘出生’时,如今的MOSS系统性能提升不少,主要表现在逻辑能力、无害性、有用性等方向。大模型靠大量语料来训练,一些能力已超越大部分成年人。

“围绕大模型,我们做的不仅仅是模型本身,还有很多挑战要解决。”邱锡鹏举例说,其中一个就是普惠化,即将大模型巨大算力成本降下来,“过去优化一个百亿参数量级的大模型,需要数个A100芯片做硬件支撑,一台机器就要100多万元,并非普通研究机构承担得起。”5个月来,这也是邱锡鹏的主要研究方向之一。就在近期,他带领团队发布了低内存优化技术(LOMO),可将大模型训练内存使用量降低到之前的10.8%,新方法能够在一台消费级显卡的机器上,对650亿参数大模型进行全参数微调,大大降低了使用门槛。

据了解,目前邱锡鹏所在的复旦大学自然语言处理实验室,是由复旦大学首席教授吴立德先生创建,是我国最早开展自然语言处理和信息检索研究的实验室之一。经过40余年发展,在自然语言处理底层分析、文本检索、自动问答、社会媒体分析等方面取得了一系列的研究成果。实验室多年在国家自然科学基金、国家863/973/重点研发计划、省部委基金的支持下,发表了大量高水平国际期刊和会议论文。发布了国内首家中文自然语言开源系统FudanNLP,被包括联合国教科文组织在内的国内外多家研发机构采用。

当前,复旦MOSS研发团队成员主要来自复旦大学计算机科学技术学院的老师及研究人员。其中,黄萱菁教授作为自然语言处理实验室学术带头人,主要从事人工智能、自然语言处理和信息检索研究,研究工作聚焦自然语言语义表示、基础工具、通用模型、鲁棒性和可解释性分析等任务;邱锡鹏教授研究方向为自然语言处理、深度学习,围绕自然语言处理的机器学习模型构建、学习算法和下游任务应用等开展研究;张奇教授研究领域包括自然语言处理,信息检索,数据密集型计算;郑骁庆副教授研究领域包括自然语言理解,语义万维网,智能系统。团队成员在人工智能领域都有不同程度的研究成果。

复旦MOSS十年磨一剑终获突破。MOSS项目自2009年起,到2021年止,走过十余年历程。项目围绕自然语言处理表示学习的四个层面(表示模型、学习机制、关键技术以及开源应用)开展研究。围绕这四个层面,项目在理论研究、技术创新以及开源应用上都做出了业界领先的研究成果,推动了自然语言处理通用表示学习的发展。2023年3月24日,复旦大学计算机学院邱锡鹏教授MOSS科研团队获钱伟长中文信息处理科学技术奖一等奖。钱伟长中文信息处理科学技术奖是经科技部批准设立的中文信息处理领域的最高科学技术奖,主要授予该领域在基本方法或关键技术上有原始创新或重大突破,对推动我国中文信息处理事业或行业进步起到重要作用,创造出较大经济效益或社会效益的项目或个人。邱锡鹏教授团队等完成的“大自然语言表示学习及其开源应用”占有一席之地,MOSS项目的主要完成人为邱锡鹏、桂韬、张奇、颜航、黄萱菁。

在成绩的背后,下一步,我们该如何复现ChatGPT这一大型语言模型?复旦MOSS还将面临哪些挑战?邱锡鹏认为,第一步需要先实现语言模型基座,第二步是指令微调,第三步是能力不断强化迭代。虽然这些关键步骤以及大概方法已经十分明朗,但每一步的细节都需要我们自己去一一摸索,还是充满着各种未知的挑战性;第一步主要是Transformer架构上进行模块优化。首先,对于ChatGPT来说,它并没有特别关注中文,很多时候只是直接把中文按照英文的方式进行编码,我们作为中国人自然是希望对中文进行优化,就需要重新实现更好的中文编码,并想办法把中文和英文打通;此外,将来如果接入多模态的话,编码问题同样会带来架构设计以及训练稳定性等诸多问题与麻烦;第二步是指令微调,个人认为指令微调的难度甚至比预训练更高。在预训练阶段,大家可以利用一些大公司成熟的预训练模型,在短时间内取得不错的训练效果;但是指令微调则非常难以立马做到,这一点上和OpenAI之间存在着非常明显的差距。在与人类对齐方面,想要让模型的回答尽可能符合我们人类的思维习惯,也很难做到。而且考虑到OpenAI暂不开源,我们只能够一步步慢慢向前探索。如果我们要想超过ChatGPT,肯定就得去找到一条比它更好的实现路径,而这个过程无疑充满艰险。同时,邱锡鹏表示,一段时间以来,开源社区对ChatGPT十分关注,涌现出很多优秀的开源数据和模型,但是已开源项目大多有以下局限:仅包含单轮指令数据、仅聚焦模型有用性、以英文为主、模型参数量较小(通常不足百亿)。与之相比,MOSS开源数据大多为多轮对话数据,涵盖模型有用性、忠实性、无害性,包含中英双语;开源模型包含160亿参数,具有更多的涌现能力和更强的知识性。MOSS还开源了插件增强对话模型,这种能力是目前国内独一无二的。未来,MOSS将陆续开源更多训练数据及模型参数,促进人工智能领域的科学研究和开源社区的生态繁荣,同时也为企业私有化部署人工智能模型、开展相关服务提供解决方案。

对于未来,人工智能大模型将朝哪个方向发展?邱锡鹏认为:以前一直做的人工智能模型都是弱人工智能模型,比如AlphaGo只能下围棋。目前ChatGPT的表现类似于通才,但是它可能在细分的专业性上和行业中比较顶级的专家还有很大的差距。我认为它将来会有不同的分支,往不同的专业方向上发展,以大模型为基础,产生很多的分领域的不同模型。这对于之前的人工智能研究来说应该都是一个大的颠覆。对于未来,我是比较乐观的。我们的人工智能以场景的丰富度或者应用层面的创新性领先,在AIGC或者大模型浪潮中,应用驱动也是很重要的。有了大模型技术底座之后,我们再去把人工智能产品打磨好,未来的人工智能一定会为我所用,为民造福。

领略复旦MOSS团队成员风采:

邱锡鹏,教授,博士生导师,复旦大学计算机科学技术学院。于复旦大学获得理学学士和博士学位。研究方向为自然语言处理、深度学习,发表CCF-A/B类论文70余篇。主持开发了开源自然语言处理工具FudanNLP [GitHub] [Google Code]、FastNLP [GitHub] [Gitee],获得了学术界和产业界的广泛使用。研究方向:围绕自然语言处理的机器学习模型构建、学习算法和下游任务应用,包括:自然语言表示学习、预训练模型、信息抽取、中文NLP、开源NLP系统、可信NLP技术、对话系统等。

黄萱菁,复旦大学计算机科学技术学院教授,博士生导师,国家级领军人才,上海市优秀学术带头人,复旦大学自然语言处理实验室学术带头人。主要从事人工智能、自然语言处理和信息检索研究,研究工作聚焦自然语言语义表示、基础工具、通用模型、鲁棒性和可解释性分析等任务。

张奇,现任复旦大学计算机科学技术学院教授、博士生导师。1999年至2003年于山东大学计算机科学与技术学院读本科,2003年至2009年于复旦大学计算机科学技术学院硕博连读,2009年留校任教至今,2012年晋升副教授,2018年晋升教授。作为项目负责人承担了国家自然科学基金面上等项目。主编教材:《自然语言处理导论》(初稿)。

郑骁庆,现任复旦大学计算机科学技术学院副教授, 博士生导师。毕业于浙江大学计算机科学与技术学院,获博士学位,之后开始在复旦大学计算机科学技术学院任教。曾以国际师资研究员(International Faculty Fellow)的身份长期在美国麻省理工学院信息技术团队从事数据集成和语义技术方面的研究。

(注:本文由全国高校人工智能与大数据创新联盟独家整理,转载请注明出处。)

全国高校人工智能与大数据创新联盟

全国高校人工智能与大数据创新联盟(简称:高校联盟)是由清华大学、浙江大学、中南大学、东北大学、上海工程技术大学、重庆邮电大学、东北林业大学、佛山科学技术学院、曲阜师范大学、黑龙江大学、海豚大数据科技等全国54家高校、企业共同发起,于2018年5月26日在北京中国科技会堂正式成立。迄今为止,联盟发展会员300多家, 覆盖全国20多个省市。联盟由一批积极投身于“人工智能、大数据、区块链”教育事业的高校、科研机构、企事业单位和个人自愿组成的公益性、全国性学术交流服务平台。中国工程院原常务副院长、中国工程院院士潘云鹤、中国科学院院士陈国良、教育部政策法规司原司长孙霄兵担任联盟名誉理事长,中国工程院院士谭建荣担任联盟理事长。联盟工作接受工信部、国家网信办等政府部门行政管理和业务指导。联盟主要工作是推进产教融合、校企合作、协同育人。(加盟微信13651193492)

高校区块链专委会

全国高校人工智能与大数据创新联盟区块链专委会(简称:高校区块链专委会),是由北京大学、浙江大学、武汉大学、西南财经大学、北京交通大学、郑州大学、贵州大学、桂林电子科技大学、山西农业大学、佛山科学技术学院、陕西师范大学、中国网安、海豚大数据科技等全国40多家高校、企业和机构共同发起,于2019年12月7日在广东省佛山市正式成立。目前发展高校及企业会员70多家。中国工程院院士、浙江大学教授陈纯担任高校区块链专委会名誉顾问;北京航空航天大学数字社会与区块链实验室主任蔡维德教授、中国计算机学会区块链专委会主任斯雪明教授、中国人民银行数字货币研究所副所长狄刚担任高校区块链专委会名誉主任;北京大学信息科学技术学院区块链中心主任陈钟教授担任高校区块链专委会主任。高校区块链专委会主要工作是促进高校区块链教育,为高校区块链专业建设及学科发展提供专家咨询服务。

高校元宇宙专委会

全国高校人工智能与大数据创新联盟元宇宙专业委员会(简称:高校元宇宙专委会),是由清华大学、湖南大学、浙江大学、四川大学、汕头大学、河北金融学院、保定市元宇宙协会、英伟达中国、海尔衣联网研究院、海豚大数据科技(天津)有限公司等全国20多所高校、企业和机构共同发起,于2022年11月5日在北京正式成立。中国工程院院士、计算机软件与虚拟现实领域专家赵沁平担任高校元宇宙专委会名誉顾问;中国工程院院士、北京航空航天大学电气与自动化学院名誉院长、中国航天科工集团有限公司科技委高级顾问李伯虎担任高校元宇宙专委会名誉主任;清华大学信息国研中心可信软件和大数据部常务副主任邢春晓担任高校元宇宙专委会主任委员。目前已发展高校及企业会员30多家。高校元宇宙专委会主要工作是促进高校元宇宙教育、加强校企合作、推动元宇宙专业建设及学科发展,为元宇宙教育教学提供专家咨询服务。

高校新商科专委会

全国高校人工智能与大数据创新联盟新商科专委会(简称:高校新商科专委会),是由中央财经大学、中国人民大学、中国石油大学、北京师范大学、北京化工大学、北京石油化工学院、北京工商大学、北京语言大学、华北水利水电大学、广西科技大学、河北金融学院、天津财经大学、北京物资学院、西藏民族大学、北京信息职业技术学院、北京联合大学、北京经贸职业学院、北京财贸职业学院、海豚大数据科技等全国20多家高校、企业和机构共同发起,于2019年6月28日在北京中国科技会堂正式成立。目前发展高校及企业会员100多家。高校新商科专委会主要工作是促进高校新商科教育、推动高校新商科专业建设及学科发展,为新商科教育提供专家咨询服务。

版权声明:转载文章和图片均来自公开网络,推送文章除非无法确认,我们都会注明作者和来源。如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜

联盟“资料图书馆”

微信咨询

复旦大学考研(复旦大学考研分数线)



赞 (0)