|
简体中文
Log In
Sign Up
OpenBMB Blog
ALL
Technologies
News
Research
Activities
CPM-Ant模型介绍
CPM-Ant是一个开源的中文预训练语言模型,拥有10B参数。它是CPM-Live直播训练过程中的第一个里程碑。训练过程是低成本和环境友好的。基于增量微调(delta tuning)方法,CPM-Ant在CUGE基准测试中取得了优异的结果。除了完整的模型,我们还提供各种压缩版本以适应不同的硬件配置。
2022年09月16 11:41
突破显存墙,BMInf现已支持GLM-130B
8 月 4 日,清华大学联合智谱 AI 发布了千亿双语大模型 GLM-130B,其在 LAMBADA 数据集上性能超越了 GPT3、OPT、BLOOM 等千亿大模型,在零样本场景上性能超越了 ERNIE TITAN 3.0,受到国内外广
2022年09月08 13:58
总结与投票 | 大模型CPM-Ant直播训练的这两个月
总结与展望经过了 68 天的 “自学”,CPM-Ant(CPM-Live 一期模型)终于训练完成。训练过程整体平稳,但也有一些小波折。和现有大模型 BLOOM,OPT 等相比,CPM-Live 系列大模型 倡导 全流程开源共建,除将开放全部参数外,也将授权用户 可商业化 的使用协议。在进行下一期模型
2022年08月15 16:39
OpenBMB x 清华NLP:20小时大模型公开课带你从入门到精通
近年来,人工智能领域最火热的话题,莫过于大模型。然而,大模型训练所需要的庞大算力与海量数据,却让大部分爱好者望而却步。那么,我们是否只能对大模型技术保持观望呢?近来,越来越多开源模型、技术和工具的出现让广大研究者都能够有机会了解与使用大模型,并进一步探寻大模型的内部机理。比如 OpenBMB 推出的
2022年07月22 10:44
不止于ZeRO:BMTrain技术原理浅析
前期我们发起了 CPM-Live 开源大模型直播训练,与现有的大模型训练使用百余张显卡相比,我们实现了 8 张 A100 显卡 训练百亿大模型。这优异效果的背后基于的是 大模型高效训练工具 BMTrain 和 模型仓库 ModelCenter。与现有框架相比,BMTrain 能够实现大模型的低资源、
2022年06月20 18:17
训练即将启动,和CPM-Ant一起乘风破浪!
经过多天的准备,CPM-Live第一期模型CPM-Ant的各项工作已经准备就绪,训练将于今日16:00正式启动!算力准备CPM-Ant的算力将使用国家超级计算济南中心的计算节点,目前模型训练启动阶段将使用1台具有8块NVIDIA A100显卡的服务器,后续我们将会扩展到多台机器。感谢BMTrain的
2022年05月29 14:29
叮!你有一封大模型直播训练邀请函!
致关注大模型的你:夏始春余,叶嫩花初。时光来到2022年的初夏,宜居家,宜潜心科研,在忙碌的工作之余,不妨劳逸结合,来看一场当下最火热话题的直播——一场开源大模型训练直播。说到大模型,你会想起什么?我们会想起大模型令人惊艳的效果,我们会想起2020年Open AI推出千亿级参数的GPT3、2021年
2022年05月26 11:29
BMTrain:为大模型训练计算成本节省9成
2018年,预训练语言模型技术横空出世并引发了人工智能领域的性能革命。研究表明,增大参数量与数据规模是进一步提升语言模型性能的有效手段,对十亿、百亿乃至千亿级大模型的探索成为业界的热门话题。这引发了国内外研究机构与互联网企业的激烈竞争,将模型规模与性能不断推向新的高度。除 Google、OpenAI
2022年05月06 01:22
OpenBMB:让大模型飞入千家万户
近年来,随着预训练语言模型技术引发人工智能领域性能革命,大规模预训练模型技术的成熟标志着“大模型时代”的到来。然而在大模型的具体应用与落地中,却存在着“训练难、微调难、应用难”三大挑战。为此,我们发起了OpenBMB开源社区,旨在打造大规模预训练语言模型库与相关工具,加速百亿级以上大模型的训练、微调
2022年04月07 11:46
OpenDelta:轻松搞定大模型参数高效微调
近年来预训练语言模型 (PLM) 已成为众多自然语言处理(NLP)任务的基础架构,研究表明更大的模型往往会带来更好的性能。然而,如果微调大模型的所有参数并存储,大规模PLM也会带来计算和存储成本过高的挑战,而且在多任务场景下还需要维护多份大模型版本。因此,相比于全参数微调,参数高效的微调方法(Par
2022年04月07 00:03