ai大模型

StableVicuna

StableVicuna,穩定羊驼,大規模開源聊天机器人

标签:ai大模型

StableVicuna官网,穩定羊驼,大規模開源聊天机器人

什么是StableVicuna?

知名開源平台Stability AI在官网宣布開源了,全球首个用RLHF訓练的类ChatGPT大语言模型——StableVicuna(穩定羊驼),它是第一个透過RLHF訓练的大規模開源聊天机器人!语言模型方面,他们也推出了首个開源并引入RLHF技術的聊天机器人StableVicuna,基于小羊驼Vicuna-13B模型實现。

StableVicuna官网開源地址:

https://huggingface.co/spaces/CarperAI/StableVicuna

https://huggingface.co/CarperAI/stable-vicuna-13b-delta

 

StableVicuna

据悉,StableVicuna是一个130亿参數的大语言模型,具備RLHF和指令调優两大特性,除了支持生成文本之外,还具備基礎數学、编寫代碼和講解语法功能。这也是目前最接近ChatGPT特性的開源模型(测試地址:

Stability AI表示,ChatGPT能獲得空前成功有两大法寶一个是指令微调,另外一个就是RLHF。但中小型企業或普通開發人员想訓练RLHF并不容易,强化学習很容易遇到模式坍塌,反馈过于稀疏、資料集难筹備、算力成本过高等难题。

所以,我们看到市面上開源类ChatGPT的模型很多,但是生成内容的擬人化方面比ChatGPT差很遠甚至有点“傻”,主要原因就是缺少RLHF的支持。

StableVicuna

什么是RLHF

RLHF的中文译為“人类反馈强化学習”,是一种結合人类指導和自动强化学習的訓练方法! 人类透過對AI的行為进行評价或指導,帮助其在学習过程中做出更好的决策。由于人类可以透過直觉、視觉和實践經验等来帮助AI,因此,应用RLHF的產品在擬人化方面獲得大幅度提升。

StableVicuna

 

简單来說,可以把RLHF看成是一种“妈妈教孩子”的的訓练方法。AI相当于刚出生毫無經验的孩子,当他摔倒在地时,母亲(RLHF)会告诉他如何避免摔倒,以及更好的走路方法,孩子可以在这种不斷反馈的学習環境中快速成长。

通常RLHF有無监督预訓练、有监督的微调、奖勵模型和基于奖勵模型的强化学習4个步驟组成。

StableVicuna

無监督预訓练:AI開始学習一个任務,可能会采用随机的策略或基于某种启發式的策略。例如,从一个预訓练好的语言模型開始,如GPT-3。

有监督的微调:AI在执行任務时,人类会對其行為进行評估。評估可以是連續的,例如,分數或奖勵。也可以是离散的,例如,對某个行為是否正确的二元反馈。然后對预訓练的模型进行微调,增强其擬人化能力。

奖勵模型:建立一个奖勵模型對LLM的输出进行評分。AI根据人类的奖勵反馈,会自动優化其策略,以便在未来的输出中更好地执行任務。

基于奖勵模型的强化学習:AI会基于奖勵模型不斷地执行任務,接收人类反馈,并根据反馈更新其输出行為。这个过程会持續进行,直到AI的表现达到人类滿意的水平。

StableVicuna技術原理

Stability AI為了让StableVicuna像ChatGPT那样同样具備指令微调和RLHF技術特性,采用了一种多模式的组合方法。Stability AI將Vicuna、OpenAssistant、trlx和GPT4All開源模型组合在一起實现这一目标。简單来說主要有三大步驟组成。

StableVicuna

首先,Stability AI將OpenAssistant、GPT4All、Alpaca的核心訓练資料集混合在一起,訓练具有监督微调的基礎模型Vicuna。

然后使用trlx 訓练一个奖勵模型,该模型基于上述開源模型的RLHF偏好資料集,进一步 初始化模型。

最后,Stability AI使用trlX进行行為策略强化学習,對初始化模型进行RLHF訓练最終實现StableVicuna。

StableVicuna

Stability AI表示,非常感谢OpenAssistant的團队為其提供了,他们RLHF資料集的訪問權限。如果没有这些珍貴的偏好訓练集,StableVicuna無法在短时间内訓练完成。

目前,用户如果想使用StableVicuna需要獲得原始LLaMA模型的訪問權限。獲得權重增量和LLaMA 權重后,使用GitHub存儲库中提供的脚本將它们组合起来,就能使用StableVicuna。

数据评估

StableVicuna浏览人数已经达到442,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:StableVicuna的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找StableVicuna的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于StableVicuna特别声明

本站ai工具百寶箱提供的StableVicuna都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由ai工具百寶箱实际控制,在2024年12月9日 下午1:48收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,ai工具百寶箱不承担任何责任。

相关导航

暂无评论

暂无评论...