OpenAI炸裂新作:GPT-4破解GPT-2大脑!30万神经元全被看透 世界速读
刚刚,OpenAI发布了震惊的新发现:GPT-4,已经可以解释GPT-2的行为!
大语言模型的黑箱问题,是一直困扰着人类研究者的难题。
模型内部究竟是怎样的原理?模型为什么会做出这样那样的反应?LLM的哪些部分,究竟负责哪些行为?这些都让他们百思不得其解。
(资料图片仅供参考)
万万没想到,AI的「可解释性」,竟然被AI自己破解了?
网友惊呼,现在AI能理解AI,用不了多久,AI就能创造出新的AI了。
就是说,搞快点,赶紧快进到天网吧。
GPT-4破解GPT-2黑箱之谜刚刚,OpenAI在官网发布了的博文《语言模型可以解释语言模型中的神经元》(Language models can explain neurons in language models),震惊了全网。
论文地址:https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro
只要调用GPT-4,就能计算出其他架构更简单的语言模型上神经元的行为。
GPT-2,就这样被明明白白地解释了。
要想研究大模型的「可解释性」,一个方法是了解单个神经元的具体含义。这就需要人类手动检测神经元,但是,神经网络中有数百亿或数千亿个神经元。
OpenAI的思路是,对这个过程进行自动化改造,让GPT-4对神经元的行为进行自然语言解释,然后把这个过程应用到GPT-2中。
这何以成为可能?首先,我们需要「解剖」一下LLM。
像大脑一样,它们由「神经元」组成,它们会观察文本中的某些特定模式,这就会决定整个模型接下来要说什么。
比如,如果给出这么一个prompt,「哪些漫威超级英雄拥有最有用的超能力?」 「漫威超级英雄神经元」可能就会增加模型命名漫威电影中特定超级英雄的概率。
OpenAI的工具就是利用这种设定,把模型分解为单独的部分。
第一步:使用GPT-4生成解释
首先,找一个GPT-2的神经元,并向GPT-4展示相关的文本序列和激活。
然后,让GPT-4根据这些行为,生成一个可能的解释。
比如,在下面的例子中GPT-4就认为,这个神经元与电影、人物和娱乐有关。
第二步:使用GPT-4进行模拟
接着,让GPT-4根据自己生成的解释,模拟以此激活的神经元会做什么。
第三步:对比打分
最后,将模拟神经元(GPT-4)的行为与实际神经元(GPT-2)的行为进行比较,看看GPT-4究竟猜得有多准。
还有局限通过评分,OpenAI的研究者衡量了这项技术在神经网络的不同部分都是怎样的效果。对于较大的模型,这项技术的解释效果就不佳,可能是因为后面的层更难解释。
目前,绝大多数解释评分都很低,但研究者也发现,可以通过迭代解释、使用更大的模型、更改所解释模型的体系结构等方法,来提高分数。
现在,OpenAI正在开源「用GPT-4来解释GPT-2中全部307,200个神经元」结果的数据集和可视化工具,也通过OpenAI API公开了市面上现有模型的解释和评分的代码,并且呼吁学界开发出更好的技术,产生得分更高的解释。
此外,团队还发现,越大的模型,解释的一致率也越高。其中,GPT-4最接近人类,但依然有不小的差距。
以下是不同层神经元被激活的例子,可以看到,层数越高,就越抽象。
把AI的对齐问题,交给AI这项研究,对于OpenAI的「对齐」大业,意义重大。
在2022年夏天,OpenAI就曾发布博文「Our approach to alignment research」,在那篇文章中,OpenAI就曾做出预测:对齐将由三大支柱支撑。
1、利用人工反馈训练 AI
2、训练AI系统协助人类评估
3、训练AI系统进行对齐研究
在前不久,万名大佬联名签署公开信,要求在六个月内暂停训练比GPT-4更强大的AI。
Sam Altman在一天之后,做出的回应是:构建更好的通用人工智能,就需要有对齐超级智能的技术能力。
究竟怎样让AI「与设计者的意图对齐」,让AGI惠及全人类?
今天的这项研究,无疑让OpenAI离目标更迈进了一步。
Sam Altman转发:GPT-4对GPT-2做了一些可解释性工作
OpenAI的对齐团队负责人也表示,这是一个新的方向,可以让我们同时获得:
详细理解模型到单个神经元的层运行整个模型,这样我们就不会错过任何重要的东西令人兴奋的是,这给了我们一种衡量神经元解释好坏的方法:我们模拟人类如何预测未来的模式,并将此与实际的模式进行比较。
目前这种衡量方式并不准确,但随着LLM的改进,它会变得更好。
虽然现在还处于初期阶段,但已经展现了一些有趣的趋势:
后期的层比早期的更难解释简单的预训练干预可以提高神经元的可解释性简单的技巧,如迭代细化,可以改进解释OpenAI可解释性团队负责人William Saunders也表示,团队希望开发出一种方法,来预测AI系统会出现什么问题。「我们希望能真正让这些模型的行为和生产的回答可以被信任。」
有趣的神经元在这个项目中,研究者还发现了许多有趣的神经元。
GPT-4为一些神经元做出了解释,比如「比喻」神经元、与确定性和信心有关的短语的神经元,以及做对事情的神经元。
这些有趣的神经元是怎么发现的?策略就是,找到那些token空间解释很差的神经元。
就这样,背景神经元被发现了,也就是在某些语境中密集激活的神经元,和许多在文档开头的特定单词上激活的神经元。
另外,通过寻找在上下文被截断时以不同方式激活的上下文敏感神经元,研究者发现了一个模式破坏神经元,它会对正在进行的列表中打破既定模式的token进行激活(如下图所示)。
研究者还发现了一个后typo神经元,它经常在奇怪或截断的词之后激活。
还有某些神经元,似乎会在与特定的下一个token匹配时被激活。
比如,当下一个标记可能是「from」时,一个神经元会被激活。
这是怎么回事?起初研究者猜测,这些神经元可能是根据其他信号对下一个token进行预测。然而,其中一些神经元并不符合这种说法。
目前,研究者还没有进行足够的调查,但有可能许多神经元编码了以特定输入为条件的输出分布的特定微妙变化,而不是执行其激活所提示的明显功能。
总的来说,这些神经元给人的主观感觉是,更有能力的模型的神经元往往更有趣。
网友:OpenAI,搞慢点吧毫不意外地,网友们又炸了。
咱就是说,OpenAI,你搞慢点行不?
在评论区,有人祭出这样一张梗图。
这就是传说中的「存在主义风险神经元」吧,只要把它关掉,你就安全了(Doge)。
ChatGPT从互联网中学习,现在它正在创造更多的互联网。很快,它就会自我反哺,真正的天网就要来临。
听说GPT-5已经达到奇点,并且它正在与地外生命谈判和平条约。
有网友恶搞了一个关于「Yudkowsky」的解释,他一直是「AI将杀死所有人」阵营的主要声音之一。
之前「暂停AI训练」公开信在网上炒得沸沸扬扬时,他就曾表示:「暂停AI开发是不够的,我们需要把AI全部关闭!如果继续下去,我们每个人都会死。」
他知道我们在计划什么
我们必须不惜一切代价让他丧失信誉
一旦他走了,就没有人能够反对我们了
「Eliezer Yudkowsky看到这一幕,一定又笑又哭——让我们使用自己不能信任的技术来告诉我们,它是如何工作的,并且它是对齐的。」
现在,人类反馈强化学习(RLHF)是主场,当AI懂了AI,将会在微调模型上开辟一个新纪元:
人工智能反馈的神经元过滤器(NFAIF)
参考资料:https://openai.com/research/language-models-can-explain-neurons-in-language-models
https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html
https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/
标签:
推荐文章
- OpenAI炸裂新作:GPT-4破解GPT-2大脑!30万神经元全被看透 世界速读
- 济南54岁住家阿姨月薪14000元,每天全英文带2娃,雇主:阿姨的英语是自学的,在这干了快1年 最新消息
- 当前视点!“空中”草莓、鱼菜共生…… 外国网红揭开商丘夏邑智慧农业神秘面纱(视频)
- 长沙向世界旅游城市发出倡议 共建全球旅业美好未来
- 考点指南:2023年5月昆明CFA考试最新考点 头条
- 联特科技(301205.SZ):新建厂房预计于2023年年底投产 每日报道
- 排秦昊之后,杨幂回应新剧二番:演员名字顺序该为角色让位
- 毛豆烧鸡要焖多久_毛豆烧鸡
- 5月10日国内钆铕钇稀土部分价格上涨
- 今日热讯:行走的AED “救”在身边
- 在外省市取得的职称,在上海认可吗?
- 17岁男生假扮女主播与客户“谈恋爱”骗打赏,法院判了!
- 最新养老金计算公式来了!2023退休工资怎样计算?
- 港股异动 | 祖龙娱乐(09990)盘中涨近4% 机构指《以闪亮之名》项目流水与利润或全面超预期 环球焦点
- 淘宝投诉赔偿30%是啥意思?延迟发货怎么赔付?
- 秦刚同德国外长贝尔伯克共同会见记者 天天快播报
- 天天视讯!become什么意思_be什么意思
- 大庆市妇幼保健院免费婚检
- 格芯季度净利润环比下降62%-全球看热讯
- 浙江宁波象山影视城通报特技飞车手意外身亡
- 乘风破浪2023投票在哪里
- 智通港股通持股解析|5月10日
- 5月零售业景气指数达51.1% 连续5个月保持在荣枯线以上_焦点日报
- 领英职场停服倒计时:停服前设置过渡期-天天资讯
- 我的漫画老师作文五年级400字
- 新动态:“拜登把国家的信用卡给刷爆了” 美国两党争斗加剧债务上限困局!耶伦连续两天发声,警告债务违约后果
- 海南矿业(601969):5月9日北向资金增持40.86万股
- 国家规定有毒有害工种目录_国家有毒有害工种 每日播报
- 下划线符号复制大全_下划线符号复制_环球短讯
- 华阳集团:公司目前为止尚未承接该车企定点项目_环球动态
- 深圳70后女副区长白发照走红:额前有“一撮白”
- 中国星辰丨天舟六号货运飞船发射前全区合练完成 各系统准备就绪-全球今头条
- 华民股份:控股子公司鸿新新能源与河北硕日签署了《长期合作框架合同》_天天资讯
- 如何排油减脂的方法图片_如何排油减脂的方法 环球热资讯
- 什么是平仄押韵(什么是平仄)
- 速递!5月9日周生生黄金584元/克 金条575元/克
- 我的世界剧毒药水怎么做?_我的世界剧毒药水怎么做
- 在现场|张家口桥东:区文旅局长亲手制作推广市级非遗美食-当前视点
- 热资讯!缓解主动脉交通压力 平润路东段贯通
- 天天微头条丨美股前瞻 | 地区性银行股盘前集体反弹,PacWest涨超36%;美股下轮牛市“燃料”已就位:投资者现金囤积量创纪录
- 当前信息:创20年纪录!缅甸若开邦大米价格创纪录上涨
- 热议:俄罗斯首都莫斯科举行纪念卫国战争胜利78周年阅兵活动
- 当奶茶碰到音乐,古茗在合肥开始玩“潮”了
- 世界观速讯丨孕妇能吃椰肉吗?
- 每日快播:芳源股份:1万吨电池氢氧化锂产能项目预计6月建成投产
- 《全球传播生态蓝皮书(2022)》:中国企业领跑关键技术成为一大亮点
- 蚌埠一岁半男童被烫伤 将再次准备接受手术-天天报资讯
- 分词作状语例句20个_分词作状语 全球时快讯
- 当前通讯!快来看莘庄主城副中心将来的样子,城市设计效果图新鲜出炉
- 洞庭湖渔业探索环境友好型养殖模式_世界要闻
- 环球时讯:数学文化选修课心得体会五篇论文(5篇)
- 上海市黄埔军校同学会换届,周亚军当选会长
- 太原五个“着力”打造一流营商环境 独家焦点
- 28股获北向资金加仓超亿元_天天百事通
X 关闭
最新资讯
- 全球快报:“馆长被区长推倒闭馆” 山西吕梁:双方无肢体接触
- 打卡古都西安的文化地标——西安城墙
- 全球最大纸浆生产商Suzano SA:考虑以人民币向中国出口产品
- 焦点要闻:很遗憾,守规矩的电动车送不了外卖,而胜利属于不守规矩的人
- 警惕 | 夏季高发,小心甲肝“找上门”
- 我国力争到2035年花卉年销售额超过7000亿元
- 全球聚焦:家中最简单炸油条醒面多久 炸油条要醒面多久
- 副科很差_ldquo 副科 rdquo 不重要吗 微动态
- 陬邑读音是什么_陬邑
- 全球观天下!赵继伟9三分成胜负手!辽宁三将20+撕裂浙江防线 杨鸣西装都没脱
- 当日快讯:BioNTech首季每股盈利跌逾85%,但仍胜市场预期 焦点快报
- 今日快看!济川药业: 湖北济川药业股份有限公司2022年年度股东大会决议公告
- 播报:“平平无奇”的迈瑞
- 朱一龙《河边错误》入围戛纳
- 艺术漆墙面效果_墙咔是全新的墙面装饰材料|当前热文
- 改变游戏规则的奥迪概念来到日内瓦
- 中核集团与东华理工大学签署新时代战略合作协议
- 步带沟 天天播资讯
- 当前关注:麦块我的世界盒子显示404怎么办-麦块我的世界盒子为什么玩不了mod
- 【世界聚看点】今日池早造的发型怎么弄?一步一步都要有图。
- 西藏珠峰今日跌停,一机构净卖出5471.4万元|快看
- 广州恒大在番禺基地与中甲升班马泰州远大进行热身赛 恒大2-1获胜 世界聚看点
- win2003 server 还能用_win2003 server 环球微头条
- 即时焦点:国足亚洲杯出线形势严峻 扬科维奇邵佳一将参加抽签
- 一个比特币要挖多久_一个比特币要挖时间_每日报道
- 风行者三姐妹谁最漂亮_风行者三姐妹
- 电动牙刷充电要多久 usmile电动牙刷充电要多久
- 军工板块一季度业绩维持增长,军工ETF(512660)涨超1.6%,中国动力涨超9%|世界速看
- 每日热文:财报前瞻 | 削减成本或提振利润 PayPal(PYPL.US)Q1净利润有望增长超50%
- 振华新战蝶500W_SF-500K14XP-讯息
- 【天天速看料】一季度周口市进出口总值26.6亿元,同比增长38%
- 美国债务违约已迫在眉睫!财长警告:美经济或陷入灾难-即时焦点
- 兴民智通:5月5日融资买入66.25万元,融资融券余额1.39亿元
- 世界速读:垄断地产大亨好玩吗 垄断地产大亨玩法简介
- 每日快播:美媒:好莱坞编剧罢工损失超100亿美元事件简单介绍
- 这国拟用人民币向俄罗斯买石油
- 世界头条:步云山练兵场
- 索迪龙主动撤回创业板IPO申请文件 现场检查问题多多 营收净利出现双降 天天精选
- 【硬科技周报】第13周:智能驾驶芯片企业“复睿微电子”完成数亿元Pre-A轮融资,人形机器人公司1X Technologies完成2350万美元融资
- 西北三马
- 世界微头条丨敌方秒选吕布咋办?放弃芈月,别用夏侯惇,她让吕布不敢出塔
- 【全球报资讯】萤石云官网_莹云石官网
- 微资讯!敢为天下先是什么意思_敢为天下先解释
- 企业员工严重违纪行为有哪些_严重违纪行为有哪些
- 天天观速讯丨过敏擦什么药膏好得快_脸部过敏擦什么药膏好
- 广东省珠海市2023-05-07 13:10发布暴雨橙色预警
- 延时指令-天天讯息
- 【播资讯】赵丽颖停工原因最新消息_赵丽颖停工原因
- 如何更换 Cricut 刀片 环球微动态
- 河源市原副市长何伟良被查,原常务副市长3个月前落马
X 关闭