openbmb官网,大模型開源工具链,打造大規模预訓练语言模型库与相關工具
什么是openbmb?
OpenBMB全称為Open Lab for Big Model Base,旨在打造大規模预訓练语言模型库与相關工具,加速百亿級以上大模型的訓练、微调与推理,降低大模型使用門槛。
openbmb官网: https://www.openbmb.org
openbmb github專案地址: https://github.com/OpenBMB

OpenBMB全称為Open Lab for Big Model Base,旨在打造大規模预訓练语言模型库与相關工具,加速百亿級以上大模型的訓练、微调与推理,降低大模型使用門槛,与国内外開發者共同努力形成大模型開源社区,推动大模型生態發展,實现大模型的标准化、普及化和實用化,让大模型飛入千家万户。
OpenBMB將努力建設大模型開源社区,團結广大開發者不斷完善大模型从訓练、微调、推理到应用的全流程配套工具。基于貢献者團队前期工作,OpenBMB設计了大模型全流程研發框架,并初步開發了相關工具,这些工具各司其職、相互协作,共同實现大模型从訓练、微调到推理的全流程高效计算。

OpenBMB全称為Open Lab for Big Model Base,旨在打造大規模预訓练语言模型库与相關工具,加速百亿級以上大模型的訓练、微调与推理,降低大模型使用門槛,与国内外開發者共同努力形成大模型開源社区,推动大模型生態發展,實现大模型的标准化、普及化和實用化,让大模型飛入千家万户。
BMTrain
大模型訓练“發动机”。BMTrain进行高效的大模型预訓练与微调。与DeepSpeed等框架相比,BMTrain訓练模型成本可節省90%。

BMCook
大模型“瘦身”工具库。BMCook进行大模型高效压缩,提高運行效率。透過量化、剪枝、蒸馏、專家化等算法组合,可保持原模型90%+效果,模型推理加速10倍。
BMInf
千元級顯卡玩轉大模型推理。BMInf實现大模型低成本高效推理计算,使用單块千元級顯卡(GTX 1060)即可进行百亿参數大模型推理。

OpenPrompt
大模型提示学習利器。OpenPrompt提供統一接口的提示学習模板语言, 它的组合性和模块化可以让你轻松部署提示学習方法以驱动大模型。
OpenDelta
“小”参數撬动“大”模型。OpenDelta进行参數高效的大模型微调,仅更新极少参數(小于5%)即可达到全参數微调的效果。

ModelCenter
大模型仓库。ModelCenter基于BMTrain工具實现了一系列预訓练语言模型,支持高效、低成本、可擴展性强的模型微调及分布式訓练。
OpenBMB能力体系
谋定而动,OpenBMB將从資料、工具、模型、协議四个層面构建应用便捷、能力全面、使用規范的大規模预訓练模型库。
构建大規模資料自动收集、自动清洗、高效存儲模块与相關工具,為大模型訓练提供資料支持。聚焦模型訓练、模型微调、模型推理、模型应用四个大模型主要場景,推出配套開源工具包,提升各環節效率,降低计算和人力成本。构建OpenBMB工具支持的開源大模型库,包括BERT、GPT、T5等通用大模型和CPM、EVA、GLM等悟道開源大模型,并不斷完善添加新模型,形成覆蓋全面的模型能力。發布通用模型許可协議,規范与保護大模型發布使用过程中發布者与使用者權利与義務,目前协議初稿已經開源(https://www.openbmb.org/license)。大模型相關工具在OpenBMB能力体系中發挥着核心作用。OpenBMB將努力建設大模型開源社区,團結广大開發者不斷完善大模型从訓练、微调、推理到应用的全流程配套工具。基于發起人團队前期工作,OpenBMB設计了大模型全流程研發框架,并初步開發了相關工具,这些工具各司其職、相互协作,共同實现大模型从訓练、微调到推理的全流程高效计算。
OpenBMB工具
BMData进行高质量資料清洗、處理与存儲,為大模型訓练提供全面、綜合的資料支持。BMTrain进行高效的大模型预訓练与微调。与DeepSpeed等框架相比,BMTrain訓练模型成本可節省90%。BMCook进行大模型高效压缩,提升運行效率。透過量化、剪枝、蒸馏、專家化等算法组合,可保持原模型90%+效果,模型推理加速10倍。OpenPrompt提供統一接口的提示学習模版语言,2021年發布以来在GitHub獲得1.3k星标,每周訪問量10K+。OpenDelta进行参數高效的大模型微调,仅更新极少参數(小于5%)即可达到全参數微调的效果。Delta Center:“人人為我,我為人人” – Delta Object分享中心Delta Center提供Delta Object的上传、分享、检索、下载功能,鼓勵社区開發者共享大模型能力。BMInf實现大模型低成本高效推理计算,使用單块千元級顯卡(GTX 1060)即可进行百亿参數大模型推理。2021年發布以来在GitHub獲得200+星标。BMInf、OpenPrompt、OpenDelta已于前期發布,并得到了開源社区用户的广泛關注与应用。接下来,OpenBMB將發布大模型訓练/微调加速工具包BMTrain、大模型后處理工具包BMCook、大模型Model Center,进一步完善大模型高效计算的工具链。未来,OpenBMB將依托開源社区力量,与广大開發者一道共同打磨和完善大模型相關工具,助力大模型应用与落地。期待广大開發者關注和貢献OpenBMB!▶ 發起團队|介绍
OpenBMB開源社区由清華大学自然语言處理實验室和智源研究院语言大模型加速技術創新中心共同支持發起。發起團队擁有深厚的自然语言處理和预訓练模型研究基礎,曾最早提出知識指導的预訓练模型ERNIE并發表在自然语言處理頂級国際会議ACL 2019上,累计被引超过600次,被学術界公认為融合知識的预訓练语言模型的代表方法,被美国国家医学院院士團队用于研制医学診斷领域的自动問答系統;團队依托智源研究院研發的“悟道·文源”中文大規模预訓练语言模型CPM-1、CPM-2,参數量最高达到1980亿,在眾多下遊任務中取得優異性能;團队近年来围繞模型预訓练、提示学習、模型压缩技術等方面在頂級国際会議上發表了數十篇高水平論文,2022年面向生物医学的预訓练模型KV-PLM發表在著名綜合类期刊Nature Communications上,并入選该刊亮点推荐文章,相關論文列表详見文末;團队还有丰富的自然语言處理技術的開源經验,發布了OpenKE、OpenNRE、OpenNE等一系列有世界影响力的工具包,在GitHub上累计獲得超过5.8万星标,位列全球机构第148位,曾獲教育部自然科学一等奖、中国中文信息学会錢伟长中文信息處理科学技術奖一等奖等成果奖勵。發起團队面向OpenBMB開源社区研制發布的BMInf、OpenPrompt等工具包已陸續發表在自然语言處理頂級国際会議ACL 2022上。孙茂松 清華大学计算机系教授,智源研究院自然语言處理方向首席科学家,清華大学人工智能研究院常務副院长,清華大学计算机学位評定分委员会主席,欧洲科学院外籍院士。主要研究方向為自然语言處理、人工智能、社会人文计算和计算教育学。在人工智能领域的著名国際期刊和会議發表相關論文400余篇,Google Scholar統计引用超过2万次。曾獲全国優秀科技工作者、教育部自然科学一等奖、中国中文信息学会錢伟长中文信息處理科学技術奖一等奖,享受国務院政府特殊津贴。劉知遠 清華大学计算机系副教授,智源青年科学家。主要研究方向為自然语言處理、知識圖谱和社会计算。在人工智能领域著名国際期刊和会議發表相關論文200余篇,Google Scholar統计引用超过2万次。曾獲教育部自然科学一等奖(第2完成人)、中国中文信息学会錢伟长中文信息處理科学技術奖一等奖(第2完成人)、中国中文信息学会汉王青年創新奖,入選国家青年人才计劃、2020年Elsevier中国高被引学者、《麻省理工科技評論》中国区35歲以下科技創新35人榜單、中国科协青年人才托舉工程。韓旭 清華大学计算机系博士生,研究方向為自然语言處理、预訓练语言模型和知識计算,在人工智能领域著名国際期刊和会議ACL、EMNLP上發表多篇論文,悟道·文源中文预訓练模型團队骨干成员,CPM-1、CPM-2、ERNIE的主要作者之一。曾獲2011年全国青少年信息学竞賽金牌(全国40人)、国家奖学金、清華大学“蒋南翔”奖学金、清華大学“鐘士模”奖学金、微软学者奖学金(亞洲12人)、清華大学優良毕業生等榮譽。曾国洋 清華大学计算机系毕業生,智源研究院语言大模型加速技術創新中心副主任。擁有丰富人工智能專案開發与管理經验,悟道·文源中文预訓练模型團队骨干成员,BMTrain、BMInf的主要作者之一。曾獲2015年全国青少年信息学竞賽金牌(全国50人)、亞太地区信息学竞賽金牌、清華大学挑戰杯一等奖、首都大学生挑戰杯一等奖。丁寧 清華大学计算机系博士生,研究方向為机器学習、预訓练语言模型和知識计算,在人工智能领域著名国際期刊和会議ICLR、ACL、EMNLP上發表多篇論文,悟道·文源中文预訓练模型團队骨干成员,OpenPrompt、OpenDelta的主要作者之一。曾獲国家奖学金、清華大学“清峰”奖学金、百度奖学金(全国10人)等榮譽。張正彦 清華大学计算机系博士生,研究方向為自然语言處理和预訓练语言模型,在人工智能领域著名国際期刊和会議ACL、EMNLP、TKDE上發表多篇論文,悟道·文源中文预訓练模型團队骨干成员,CPM-1、CPM-2、ERNIE的主要作者之一。曾獲国家奖学金、清華大学優良毕業生、清華大学優秀本科毕業論文等榮譽。
無論你正在从事大模型研究,研發大模型应用,还是對大模型技術充滿興趣,歡迎使用OpenBMB開源工具和模型库,你的每一份意見和建議,都為我们指明前进的方向。在OpenBMB開源社区,我们推崇简洁,追求极致,相信資料与模型的力量。歡迎志同道合的你加入,共同為大模型应用落地添磚加瓦,早日让大模型飛入千家万户。