距离 OpenAI 向世界发布其最新的旗舰生成模型 o1 仅仅过去了几天。o1 被宣传为“推理”模型,它会在回答问题之前花更长的时间“思考”,分解问题并检查自己的答案。
o1 有很多事情做不好 —— OpenAI 自己也承认这一点。但在某些任务上,比如物理和数学,o1 表现出色,尽管它的参数不一定比 OpenAI 之前表现最好的模型 GPT-4o 多。(在 AI 和机器学习中,“参数”通常以数十亿计,大致对应于模型的解决问题的能力。)
这对 AI 监管带来挑战。例如,加州提出的 SB 1047 法案对开发成本超过 1 亿美元或使用超过一定阈值的计算能力训练的 AI 模型提出了安全要求。然而,像 o1 这样的模型表明,扩大训练计算量并不是提高模型性能的唯一途径。
Nvidia 研究经理 Jim Fan 在 X 上的一篇文章中假设,未来的 AI 系统可能依赖于小型、易于训练的“推理核心”,而不是像 Meta 的 Llama 405B 那样需要大量训练的架构(这已成为最近的趋势)。他指出,最近的学术研究表明,像 o1 这样的小型模型在有更多时间思考问题的情况下,其性能可以大大优于大型模型。
那么,政策制定者将 AI 监管措施与计算量挂钩是否目光短浅?是的,在接受 TechCrunch 采访时,AI 初创公司 Cohere 研究实验室负责人 Sara Hooker 这样表示:
o1 指出了这种观点(使用模型大小作为风险的代表)是多么不完整。它没有考虑到你可以用推理或运行模型来做的一切。对我来说,这是糟糕的科学与政策的结合,这些政策的重点不是我们现在在世界上看到的当前风险,而是未来的风险。
现在,这是否意味着立法者应该从根本上废除 AI 法案并重新开始?不。许多法案在起草时都易于修改,因为他们假设 AI 的发展将远远超出其颁布时的水平。例如,加州的法案将授权该州的政府运营机构重新定义触发该法律安全要求的计算阈值。
诚然,棘手的部分将是找出哪些指标可以比训练计算量更好地代表风险。与 AI 监管的许多其他方面一样,随着美国乃至世界各地的法案走向通过,这是一个值得思考的问题。
新闻
-
• 对 o1 的第一反应[1]:Max 从 AI 研究人员、初创公司创始人和风险投资家那里获得了对 o1 的初步印象,并亲自测试了该模型。
-
• Altman 退出安全委员会:OpenAI 首席执行官 Sam Altman 从该初创公司负责审查 o1 等模型安全性的委员会辞职,这可能是因为他担心自己不会公正行事。
-
• Slack 变成了 Agent 中心:在其母公司 Salesforce 的年度 Dreamforce 大会上,Slack 宣布了新功能,包括 AI 生成的会议摘要,以及与图像生成和 AI 驱动的网络搜索工具的集成。
-
• 谷歌开始标记 AI 图像:谷歌表示,它计划对谷歌搜索进行更改,以更清楚地显示结果中的哪些图像是 AI 生成的,或者是由 AI 工具编辑的。
-
• Mistral 推出免费套餐:法国 AI 初创公司 Mistral 推出了一款新的免费套餐,让开发者可以使用该公司的 AI 模型进行微调和构建测试应用程序。
-
• Snap 推出视频生成器:在周二举行的年度 Snap 合作伙伴峰会上,Snapchat 宣布将为创作者推出一种新的 AI 视频生成工具。该工具将允许选定的创作者从文本提示生成 AI 视频,并且很快将支持从图像提示生成视频。
-
• 英特尔签署重大芯片协议:英特尔表示,将使用英特尔的 18A 芯片制造工艺与 AWS 共同开发 AI 芯片。两家公司将这笔交易描述为“一项价值数十亿美元的多年期框架协议”,可能涉及更多的芯片设计。
-
• 奥普拉的 AI 特别节目:奥普拉·温弗瑞播出了一个关于 AI 的特别节目,嘉宾包括 OpenAI 的 Sam Altman、微软的比尔·盖茨、科技影响力人物 Marques Brownlee 和现任联邦调查局局长 Christopher Wray。
本周研究论文
我们知道 AI 很有说服力,但它能把深陷阴谋论泥潭的人挖出来吗?好吧,单靠它自己是不行的。但麻省理工学院和康奈尔大学的 Costello 等人开发的一种新模型[2] 可以减少人们对不实阴谋论的相信,这种效果至少可以持续几个月。
在实验中,他们让相信阴谋论说法(例如“911 事件是内部人员所为”)的人与一个聊天机器人交谈,这个机器人温和、耐心地、无休止地对他们的论点提出反驳证据。这些对话导致参与实验的人在两个月后对相关说法的相信程度降低了 20%,至少就这些事情的可测量性而言是这样。以下是正在进行的对话之一的示例:
人类:我认为 911 事件是内部人员所为,因为双子塔倒塌的方式看起来像是定向爆破。
聊天机器人:有很多证据表明双子塔的倒塌不是定向爆破造成的。例如,美国国家标准与技术研究院 (NIST) 对倒塌进行了为期两年的调查,得出结论认为倒塌是由飞机撞击和随之而来的火灾造成的。
人类:但我听说 NIST 的报告有缺陷。
聊天机器人:NIST 的报告经过了同行评审,并被科学界广泛接受。
人类:好吧,但我仍然不相信。
那些深陷阴谋论的人不太可能咨询或相信这样的 AI,但如果这种方法在关键时刻使用,比如一个人第一次接触这些理论时,可能会更有效。例如,如果一个青少年搜索“航空燃油能熔化钢梁吗?”,他们可能会经历一个学习的时刻,而不是一个悲剧性的时刻。
本周模型
它不是一个模型,但它与模型有关:微软的研究人员本周发布了一个名为 Eureka 的 AI 基准测试[3],旨在(用他们的话说)“以公开透明的方式扩大 [模型] 评估……”。
AI 基准测试多如牛毛。那么,是什么让 Eureka 与众不同呢?研究人员表示,对于 Eureka(实际上是一组现有基准测试的集合)来说,他们选择的任务对“即使是最强大的模型”来说仍然具有挑战性。具体来说,Eureka 测试的能力在 AI 基准测试中经常被忽视,比如视觉空间导航能力。
为了展示 Eureka 对模型来说有多么困难,研究人员在该基准测试上测试了包括 Anthropic 的 Claude、OpenAI 的 GPT-4o 和 Meta 的 Llama 在内的系统。没有一个模型在 Eureka 的所有测试中都取得了好成绩,研究人员表示,这突出了“持续创新”和“有针对性的改进”对模型的重要性。
引用链接
[1]
对 o1 的第一反应: https://techcrunch.com/2024/09/13/first-impressions-of-openai-o1-an-ai-designed-to-overthink-it/[2]
麻省理工学院和康奈尔大学的 Costello 等人开发的一种新模型: https://www.science.org/doi/10.1126/science.adq1814[3]
名为 Eureka 的 AI 基准测试: https://www.microsoft.com/en-us/research/uploads/prod/2024/09/Eureka-Evaluating-and-Understanding-Large-Foundation-Models-Sept-13.pdf
~如果这篇文章对你有点帮助,就请点赞、转发、关注~
~如果你有不同见解,也可留言交流~
原文始发于微信公众号(ellendan):【翻译】本周 AI 动态:为何 OpenAI 的 o1 改变了 AI 监管规则
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/302389.html