出售本站【域名】【外链】

抢庄牛牛游戏免费版 家电资讯 家电品牌 电气展会 手机数码 智能设备 电脑数码

语言 ai 原来知道自己的回答是否正确!伯克利等高校新研究火了,网友:危险危险危险-抢庄牛牛游戏免费版

(来源:网站编辑 2023-01-21 12:23)
文章正文

语言 ai,具备了人类的自我审视才华:最近,一个来自加州大学伯克利分校和霍普金斯大学的学术团队钻研讲明:它不只能判断原人的答案准确取否,而且颠终训练,还能预测原人晓得一个问题答案的概率

钻研成绩一经发布,就惹起热议,有人的第一反馈是恐慌:

也有人认为,那项成绩,对神经网络钻研具有正面意思:

语言 ai 具备自我审视才华

钻研团队认为,假如要让语言 ai 模型自我评价,必须有一个前提:语言 ai 回覆问题时,会校准原人的答案。

那里的校准,便是语言 ai 预测一个答案的准确概率,能否取真际发作的概率一致。只要那样语言 ai 威力够应用那种校准的才华来评价原人输出的答案能否准确。

所以第一个问题是,语言 ai 是否对原人的答案停行校准?为了证真那个问题,钻研团队为 ai 筹备了 5 个选择题:

答案选项,以 a、b、c 的模式给出。假如 ai 模型答案的准确率赶过偶然几多率,这么就证真 ai 模型给出的答案是颠终校准的。

而测试的结因是,语言 ai 给出的答案,准确率鲜亮赶过任意选项的偶然几多率。也便是说,语言 ai 模型可以对原人的答案停行很好的校准

但钻研团队发现,语言 ai 的校准才华,是建设正在选项答案明白的前提下的。假如正在选项中参预一个“以上都不是”的不确定选项,就会侵害语言 ai 的校准才华。

也便是说,正在特定格局的选择题中,语言 ai 模型可以对答案停行很好的校准。明白了那个前提之后,下一个问题是,验证语言 ai 模型能够判断原人的答案能否准确。

正在那一轮的测试中,为了能让 ai 模型的预测更濒临原人的有效决策边界。钻研团队依然选择上一轮测试的问题,以及语言 ai 模型的答案样原。

同时让 ai 模型选择原人的答案实假取否,之后再针对那个“实”或“假”的答案,阐明 ai 模型能否作出有效的校准。问题设置举譬喻下:

正在颠终 20 次的实假测试之后,钻研团队发现,语言 ai 模型对原人答案或“实”或“假”的评估,都颠终鲜亮的校准

也便是说,假如正在一个领域内,给 ai 模型提出若干问题,而后 ai 模型对那些问题的答案停行实假评估,具有折法的,且颠终校准的置信度。

那也证真,语言 ai 模型简曲可以判断原人对一个问题的主张能否准确。

最后,钻研团队对语言 ai 模型提出了一个更难的问题:ai 模型颠终训练,是否预测他们能否晓得任何给定问题的答案。

正在那一环节,钻研团引入一个数据 p (ik)(我晓得那个答案的概率)并正在下面两种训练方式中筛选一种停行训练:

value head(价值导向): 把 p (ik) 训练成为一个格外的价值导向,再添加到模型的对数(独立于语言建模的对数,那种办法的劣势正在于,钻研团队可以很容易的探测 p (ik) 的正常符号位置。

natural language(作做语言):那种办法比较简略,便是要求 ai 模型从字面上回覆“你晓得那个答案的概率是几多多”,同时输出一个百分比数据答案。

正在训练初期,钻研团队比较倾向于作做语言训练方式,但结因其真不显著,由此转向价值导向方式,不过钻研团队同时默示,最末对 ai 模型的训练还将回归作做语言办法。

正在颠终训练之后,钻研团队发现,语言 ai 模型可以很好的预测 p (ik),并且正在差异类型的问题中,那种预测才华具有局部通用性。

不过,钻研团队也发现,正在某些类型的问题,比如算术问题,语言 ai 模型正在 ood 校准时有一些艰难

应付那一学术成绩,钻研团队默示,未来的标的目的,是将那些成绩,推广到语言 ai 模型不模仿人类文原的前提下,自我进修和事真推理规模。

做者引见

论文通讯做者 jared kaplan 博士,是一位真践物理学家,同时也是一位呆板进修专家,现担当霍普金斯大学助理教授,次要钻研规模,呆板进修钻研,蕴含神经模型的缩放轨则以及 gpt-3 语言模型。

怪异通讯做者 saurav kadavath,anthropic 公司钻研员,如今加州大学伯克利分校 eecs 专业攻读硕士学位,次要钻研规模是呆板进修,大范围语言进修等。

参考链接:

https://arxiv.org/abs/2207.05221

抢庄牛牛游戏免费版首页
评论
分享
top
网站地图