复旦团队发布首个类chatgpt模型国内科学家团队发布超大规模AI预训练模型

访问：

2021阿里云上云采购季：采购补贴、充值返券、爆款抢先购

云通信分会场：爆款产品低至7.2折，短信低至0.034元/条

“悟道1.0”由智源研究院学术副院长、清华大学唐杰教授领衔，带领来自北京大学、清华大学、中国人民大学、中国科学院等单位的100余位AI科学家团队联合攻关，同时与快手、搜狗、360、阿里、新华社等龙头企业共同研发工业级示范性应用。

智源研究院院长黄铁军教授介绍，近几年这轮人工智能浪潮的基本特点是“数据+算力+算法=模型”，模型浓缩了训练数据的内部规律，是实现人工智能应用的载体。近年来人工智能的发展，已经从“大炼模型”逐步迈向了“炼大模型”的阶段，通过设计先进的算法，整合尽可能多的数据，汇聚大量算力，集约化地训练大模型，供大量企业使用，是必然趋势。

智源研究院2020年10月启动“悟道”项目，研发规模大（主要体现为参数量）、智商高、具备类人认知能力、统一对多模态数据的理解和建模、满足各种应用需要的预训练模型，特别是注重中文语料的采集和训练。

四大模型：中文、多模态、认知、蛋白质预测

“悟道”模型技术委员会主任、智源研究院学术副院长唐杰教授介绍，“悟道1.0”先期启动了4个大模型的研发。

以中文为核心的预训练语言模型“悟道·文源”目前模型参数量达26亿，具有识记、理解、检索、数值计算、多语言等多种能力，并覆盖开放域回答、语法改错、情感分析等20种主流中文自然语言处理任务，技术能力已与GPT-3齐平。

其目标是构建完成全球规模最大的中文预训练语言模型，在文本分类、情感分析、自然语言推断、阅读理解等多个任务上超越人类平均水平，探索具有通用能力的自然语言理解技术，并进行脑启发的语言模型研究。

超大规模多模态预训练模型“悟道·文澜”，目前模型参数量达10亿，基于从公开来源收集到的5000万个图文对上进行训练，是首个公开的中文通用图文多模态预训练模型。

其目标是突破基于图、文和视频相结合的多模态数据的预训练理论难题，并最终生成产业级中文图文预训练模型和应用，并在多个评测应用上超过国际最高性能。

该模型已对外开放API，并有两款小应用，可以为用户上传的照片配文，或搭配最合拍的音乐。

复旦团队发布首个类chatgpt模型_复旦类脑研究院怎么样_剑三怎么发布团队确定

面向认知的超大规模新型预训练模型“悟道·文汇”，目前参数规模达113亿，在AI作诗、AI作图、AI制作视频、图文生成、图文检索、复杂推理等多项任务中的表现已经接近突破图灵测试，可以应用在电商行业自动撰写商品文案等场景。

其目标是研发出千亿至万亿级参数量的、更通用、且性能超越国际水平的预训练模型，搭建预训练模型体系，从认知角度研究通用人工智能，发展模型基于逻辑、意识和推理的认知能力。

超大规模蛋白质序列预测预训练模型“悟道·文溯”，已在蛋白质方面完成基于100GB 数据库训练的BERT模型，在基因方面完成基于5-10万规模的人外周血免疫细胞（细胞类型25-30种）和1万耐药菌的数据训练，同时搭建训练软件框架并验证其可扩展性。

其目标是以基因领域认知图谱为指导，研发出十亿参数规模、可以处理超长蛋白质序列的超大规模预训练模型，在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。

：全球最大中文语料数据库

在科研方面，“悟道1.0”取得了多项国际领先的AI技术突破，与现有同类算法及模型相比提升了训练速度，提高了识别准确度和效率。不过更值得一提的是该项目建设并开放了全球最大中文语料数据库。

数据规模达2TB，超出之前全球最大的中文语料库十倍以上，同时着重去除了数据中包含的隐私信息，防止了隐私泄露。

的数据来源丰富，包括新闻咨询、评论、百科、论坛、博客、学术论文等，使得该数据集能够适用于不同种类的自然语言处理任务，训练出的模型泛化性更强。

此外，数据标签的完备性较高，语料中包含医疗、法律、金融等领域标签，可以依据需求抽取某个特定领域的数据，用于训练该领域的模型，也可以用于对大模型进行微调，构建某一特定领域的应用。

该数据集不仅为“悟道”项目提供了数据支撑，还可被用于中文自然语言处理领域的多种任务模型训练，包括文本生成模型、词嵌入模型、问答对话模型等，对于国际自然语言处理领域的发展将有着积极的促进作用。

清华自然语言处理科学家孙茂松：让算法懂得人类“常识”

深度学习如何处理人类语言？探究谷歌多语言模型背后的奥秘

训练10亿张图片，新AI模型可能给计算机视觉带来革命

本文素材来自互联网

ChatGPT中文版

发表回复

ChatGPT中文版

复旦团队发布首个类chatgpt模型 国内科学家团队发布超大规模AI预训练模型

发表回复

复旦团队发布首个类chatgpt模型国内科学家团队发布超大规模AI预训练模型