蜜途网
    首页 > 国内 > 中国弟弟PhillipWang复制了一个ChatGPT

中国弟弟PhillipWang复制了一个ChatGPT

来源:IT之家   时间:2022-12-31 16:18:55   阅读量:13519   

先说程序员有多快。第一个开源的ChatGPT项目已经出现了!

基于谷歌语言模型的PaLM架构和从人类反馈中加强学习的方法,中国弟弟Phillip Wang复制了一个ChatGPT。

项目GitHub star已经超过1.7k,而且还在飙升。

可是,一反常态,网友们看到开源ChatGPT并没有抢,反而都提出了问题:

这......有人能跑。

开源,但不完全开放。

项目的核心内容是在PaLM架构上实现基于人类反馈的强化学习。

其中PaLM是谷歌在今年4月发布的5400亿参数全能机型基于通路系统的训练,伯特之父雅各布·德夫林是主要贡献者之一

PaLM可以完成写代码,聊天,语言理解等任务,在大多数任务中实现了小样本的SOTA学习性能

另一个核心点是RLHF的来自人类反馈的强化学习。

OpenAI在提出InstructGPT的时候就使用了这种方法,可以让AI的回答更加符合情境要求,减少危害性。

它分为三个步骤:

第一步是找一些人写下示范答案,以微调GPT—3模型并训练监督模型基线。

第二步,收集一个问题的几组不同的输出数据,由人类对几组答案进行排序,在这个数据集上训练奖励模型。

再次,采用RM作为奖励函数,近端策略优化算法对GPT—3策略进行微调,加强学习方法,使奖励最大化。

ChatGPT使用的GPT—3.5,其中text—davinci—002是在code—davinci—002的基础上使用InstructGPT训练方法改进的。

大致有三个步骤:

我们先训练一下PaLM,就像其他自回归变压器一样。

第二...

等等,练掌你确定这不是开玩笑吗

现在我明白为什么大家都觉得这个开源项目根本跑不起来了...

打个不恰当的比方,这就好比你想吃熊肉,你得先自己给熊头上。

项目里只有PaLM架构和代码,没有预训练的权重。

所以完成第一步后,大概效果是...

说到这里,继续往下看...

然后,用强化学习对之前训练好的模型和奖励模型进行微调。

经过这三步,你就可以得到一个开源版本的ChatGPT了。

中间的问题包括巨大的计算量,庞大的模型和难以收集的文本...所以有些人不禁要问:

没有可能,也没用。

不过,也有网友认为这本质上是好事。

AI的一个关键区别是,每一次重大突破,都会很快出现一个开源版本。

而LAION也推出了类似的项目Open Assistant,将通过众筹脑力联合开发一款开源聊天AI。

稳定扩散使用的开放数据集就是这个组织做的。

感兴趣的童鞋不妨试试~

PaLM—rlhf—pytorch主页:

打开助手主页:

参考链接:

声明:本网转发此文章,旨在为读者提供更多信息资讯,所涉内容不构成投资、消费建议。文章事实如有疑问,请与有关方核实,文章观点非本网观点,仅供读者参考。

猜你喜欢

游客在进入北京环球度假区时须核验北京健康宝和有效身份证件
游客在进入北京环球度假区时须核验北京健康

具体如下:北京环球度假区继续按照相关政府部门的限流要求,以预约入园的形式加强人流动态监测和...详情

2022-04-28
杭州湘湖的草坪人气很高不少人在这里搭帐篷
杭州湘湖的草坪人气很高不少人在这里搭帐篷

湘湖边乱搭帐篷,煞了春日风景景区出台最新政策,将设置临时帐篷搭建区,后续还要增设露营服务区...详情

2022-04-14
南非徐霞客在云南:从行万里路到吃百碗米线的文化之旅
南非徐霞客在云南:从行万里路到吃百碗米线

题:南非徐霞客在云南:从行万里路到吃百碗米线的文化之旅杜安睿来自南非,是一名国际注册会计师...详情

2022-04-10
广州新增3例本土确诊病例双层观光巴士全部停运
广州新增3例本土确诊病例双层观光巴士全部

广州新增3例本土确诊病例双层观光巴士全部停运广州市政府新闻办公室21日公布的信息显示,过去...详情

2022-03-22