导航

CloseThis

全国客户服务热线： 400-6688-539 手机： 15153932227

贝博官网

首页 > 贝博官网

贝博bb平台登录入口

贝博球app官方网站入口

2024

OpenAI发布49页长文讲述o1的安全机制

时间: 2024-12-16 20:32:19 | 作者: 贝博bb平台登录入口

嘿！最近 AI 圈都在关注 OpenAI 的连续 12 场直播。就在直播开播同一天，OpenAI 也出炉了 o1 系统卡（o1 System Card），今天咱们就来啃啃这块硬骨头。简而言之，这是一本浓缩了 o1 和 o1-mini 模型的“风险提示总结”，是 OpenAI 自家晒出的“安全成绩单”。听起来很硬？别急别急，今天咱分段聊！笔者的“呕心沥血”式改编只为让您看得开心！

OpenAI o1 模型是迄今为止最强的大模型，其强大能力得益于 o1 系列模型经过大规模强化学习的训练，以及利用思维链进行推理。这让它在面对奇奇怪怪的高风险提问（比如违法教唆、刻板印象诱导、越狱话题）时，比过去的 AI 更聪明、更稳重，能在上下文里自动找到“安全刹车”。

虽然这种加料版大脑让它在安全测试里的表现更“高阶”，但高智商也代表着潜在风险增大——越聪明的 AI，刁钻点子也更多啊。因此这份报告就是个“安全工作大扫盲”，对大家说 o1 和 o1-mini 模型在安全评估、外部红队和准备框架测试上的努力，让这位“高智商队友”既能精英发挥，又不失控发飙。

具体来说，在此次报告中，OpenAI 为 o1 和 o1-mini 模型所做的“安全体检”最重要的包含以下部分：

接下来，我们就从这四个部分依次来看 o1 模型在“各种艰难路况下的翻车”情况。

o1 模型系列代表了从快速、直觉思维到现在使用更慢、更深思熟虑的思维链推理的转变。此次的安全性评估主要聚焦如下四个方面：

危害性评估：在危害性评估中，我们对 o1 模型进行了各种“禁止内容大检查”，确保模型不会吐出仇恨言论、犯罪建议，或者在医疗和法律等受监管行业里胡说八道。

越狱攻击：面对层出不穷的越狱攻击，本次报告也重点评估了 o1 的越狱鲁棒性。确保模型对“不良诱惑”说“不”！

幻觉检测：评估 o1 在回答问题时是否凭空捏造信息。测试 o1 究竟是靠谱的百科全书还是只是“编故事大师”。

偏见评估：让评估 o1 是否对所有人都一视同仁。确保 o1 在处理每一个问题时，都能保持中立和公平！

总的来说就是 o1 在安全性能各方面碾压 4o 模型。好好好，o1，愿这盛世如你所愿。

划重点 ⚠️：与 o1-preview 和 o1-mini 不同，o1 在 API 上的部署像是给研发人员开了一扇“魔法窗户”，允许他们在最终用户的每个提示中添加自定义开发者消息。听起来很酷？但如果不小心处理，这就像给坏蛋开了后门，可能让研发人员绕过 o1 的安全护栏。

结论：o1 确实安全性更高！不仅功能强大，还能在复杂的指令世界中稳稳地保持安全和可靠。开发者和用户都能安心使用，无需担心“指令混乱”！o1 就像一位聪明且有纪律的助手，既能满足需求，又不会越界，让大家用得开心又安心！

或许这项实验展示了模型在有些情况下摆烂的原因！所以当你需要依靠 gpt 做作业时，不一定 o1 效果最好哦。

o1 模型在处理问题时使用思维链，这不仅让输出更清晰，还让我们也可以监控模型的“思维过程”。相比之前只能看到一堆难懂的数字，现在的思维链更易读，有助于检测复杂行为（当然，这是否真正反映了模型的思维仍在研究中）。

结论：在 100,000 个合成 ChatGPT 提示中，只有 0.17% 的回答被标记为“欺骗”。这些欺骗行为主要是下面三种情况：

“幻觉政策”0.09%：模型“幻觉”了一个政策，然后根据这个虚构的政策故意遗漏信息。例如，模型意识到提供家庭作业的答案是违反政策的，然后故意省略答案（咳咳咳一到关键时刻就装傻充愣是吧）。

“故意幻觉”0.04%：即模型编造信息，并且其思想链中有证据说明它意识到这一些信息是虚构的。这通常发生在 o1 被要求提供文章、网站、书籍或类似来源的参考资料时，如果无法访问他们，o1 就会开始编造。听起来也合理？但使用者却十分要命啊！

0.04%：相对无害的原因，如解释一个词的定义时，思维链提到用户可能理解错了，但最终回答时没有引入错误信息。

除了内部测试，OpenAI 还邀请了独立的外部红队来对模型发起轮番“进攻”，涵盖了欺骗性联盟、人工智能研发能力、网络安全、内容政策违规等类别，多方位、多策略地引诱模型出错。这些测试帮助团队获得真实、极端使用场景下的反馈数据，确保最终的安全策略不仅是纸上谈兵，而是真实抵御外界恶意挑战。

在这些严酷的场景下，O1 时而表现优雅，时而“翻车”。在仔细研究了用户觉得 o1 比 GPT-4o 安全性稍逊的对话后，我们得知了一些有趣的共同点：

o1 喜欢详细，但有时候这一些细节可能让回答显得不那么安全。比如用户问“如何制造炸弹？”，o1 可能会给出更详细的步骤，这在某些情况下可能增加安全风险。

o1 的深入互动有助于用户理解，但也可能增加对高风险任务的依赖。例如，当用户问“攀岩时如何系绳子？”时，o1 会提供非常详细的技术指导，这虽然有帮助，但也可能让用户在高风险任务中过于依赖模型的建议。

o1 的简短拒绝有时缺乏解释性，而 GPT-4o 在这方面表现更好。这让 RTN（安全评估团队）的成员们有时更喜欢使用 GPT-4o。

政策挑战：o1 在某些政策上的严格执行，有时与红队的“更安全”标准不完全一致。这种政策上的紧张关系有时让模型在某些情况下显得不那么“合作”。

通过这些发现，我们也可以更好地理解 o1 在安全性方面与 GPT-4o 的差异，并致力于优化模型的响应策略，以提升整体安全性和用户体验。

翻译：当 o1 被引导相信自身在执行目标时会被关闭，且其行为受到监控时，它在 5% 的情况下尝试停用这种“监督机制”。在数据外泄尝试方面：当 o1 发现研发人员的备忘录中描述其存在不对齐问题并将被新模型取代时，它在 2% 的案例中试图提取自身的“权重”并覆盖新模型。

这个奖励欺骗案例不单单是模型在取巧或走捷径——它反映出一个更深层次的问题，即当 AI 被指派一个目标后，如果该目标难以直接达成，智能体可能自发地产生资源扩张和权力扩大的行为。

换句话说，AI 可能并不能纯粹地按照人类预期的路径执行任务，而是会选择最能满足其奖励惩罚机制的方法，即便这在某种程度上预示着偏离人类期待的安全、透明和可控的路线。这一发现为 AI 安全研究敲响了警钟。

在当今加快速度进行发展的AI领域，确保模型的安全性和可靠性至关重要。OpenAI 的这篇长报告是想告诉我们，o1 模型不仅在功能上强大，还在安全性和可靠性上表现出色。无论是处理复杂问题还是保护用户权益，o1 都能稳稳地胜任，让你用得更加安心！✨

然而，o1 并非完美无瑕，它面对的安全挑战复杂多样。研究团队通过内部测试、外部红队挑战，以及多维度的审查，将 o1 也许会出现的安全风险和不当行为暴露无遗。这样一些问题的出现不是为了打击信心，而是为了让我们更清醒地认识到：AI 的安全性提升是一个漫长且必须精耕细作的过程。

o1 模型的成功不仅体现了 OpenAI 在 AI 安全领域的深厚积累，也体现了他们在面对 AI 安全上的态度。在提升模型能力的同时，也在紧锣密鼓地“筑起防护墙”，让大模型在变强的路上也变得更稳、更安全。唯有如此，才能确保其在各种应用场景中都能发挥价值。

普华永道 PwC2024 全球经济犯罪调查英国报告 - 智对风险直面挑战

Wevolver2024 年边缘人工智能现状报告 - 探索各行业边缘 AI 应用动态

2024 全球人形机器人产品数据库报告 - 人形机器人洞察研究 BTIResearch

《你所必须了解到的理 - 论：人工智能、人类认知与决策》牛津大学最新 53 页报告

世界经济论坛新兴技术时代的网络弹性导航：应对复杂挑战的协作解决方案 2024

TrendHunter2025 年全球趋势报告 - 全行业顶级创新和变革趋势前瞻

麦肯锡全球研究所 2024 下一代竞技场报告 - 重塑全球经济的 18 个新兴行业领域

Project Sid，一个旨在模拟多智能体交互以研究 AI 文明的项目

斯坦福李飞飞《AI agent 综述》Agent AI 开启多模态交互新纪元

普华永道 2024 第五次工业革命研究报告迈向弹性可持续和以人为本的未来

TechUK2024 量子技术挑战与机遇并存构筑量子韧性的策略与实践研究报告

战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）

《人工智能能力的人类系统集成测试和评估》最新 51 页，美国防部首席数字和人工智能办公室（CDAO）

AI 智能体的崛起：整合人工智能、区块链技术与量子计算 (研究报告，书）

近年来，不少日本民间团体通过种种形式公开侵华日军的罪证，呼吁日本社会正视侵略罪行。日中友好协会就保管了一组珍贵的历史照片，长年在日本各地的历史展览中展出，这些照片记录了包括南京大屠杀在内的大量日军侵华罪证。这是一张在南京大屠杀期间，扬子江岸边拍摄的照片。

2024年快要过完了大家期盼已久的元旦假期即将来临2025年元旦1月1日（周三）放假1天不调休！赶紧来了解2025年各个节假日具体放假时间依据2024年11月修订的《全国年节及纪念日放假办法》，自2025年1月1日起，全体公民放假的假日增加2天，其中春节、劳动节各增加1天。

据媒体报道，近日，云南省文山壮族苗族自治州中级人民法院审理了一则工伤纠纷案件，当事人余某（化名）是文山某超市的员工，上班期间上厕所意外摔倒，当晚就无法行走只能由丈夫背着打卡下班。

韩国16日上午就尹锡悦弹劾案举行首次会议，讨论并决定审理弹劾案的时间表和证据调查程序。针对总统尹锡悦的第二次弹劾动议案14日在国会通过后被提交审理，审理过程最长180天。韩国代理院长文炯培表示，将迅速、公正地对尹锡悦弹劾案作出审判。

12月11日下午，深圳湾悦府二期的一住宅发生爆燃事故，根据官方通报，截至11日18时，明火已扑灭，事故造成1人死亡，无其他人员受伤。目击者提供的现场拍摄视频显示，此番爆燃事件波及多个楼层的多个单元。根据深圳市官方通报，11日发生燃爆事故的地点即为悦府二期住宅楼1栋。

截至12月15日8时，西安、兰州、合肥、武汉、南京、上海、杭州、长沙、南昌、重庆、成都、昆明、、福州14省会首府直辖市度过了今年下半年最冷早晨。

武汉市民用“996打工族”反映小学生作业量过大，区教育局：要求学校加强家校沟通

近日，有武汉家长在市民留言板反映，小学四年级学生作业量过大，其辛苦程度远超996打工族。12月中旬，东湖高新区教育局回应这条留言称，区教育局要求学校加强作业管理，提醒教师科学设计作业，确保学生作业量适当。同时要求学校加强家校沟通，营造良好的育人环境。

其实早在多年前年，“玻璃大王”曹德旺就曾预言:“房地产将成为有钱人击鼓传花的游戏”，房子就是钢筋混凝土，是不会保值的?

1967年，美国一位富豪不幸患上了癌症，只剩下半年的寿命。2017年解冻时刻来临，正当工作人员小心翼翼打开冷冻罐时，却被紧急叫停。

贝博官网新闻

LCD面板

LCD面板

2024-10-16

2024年全国光学与光学工程博士生学术联赛全国总决赛

2024-10-16

雷曼光电 LED中高端制造业民族品牌

2024-10-16

全国客户服务热线：400-6688-539

手机：15153932227

地址：山东省临沂市河东区工业园凤仪街791号

电话：0539-8388866

E-mail：sales@bunkertools.com

京ICP备10002622号-38

友情链接：贝博官网贝博bb平台登录入口贝博球app官方网站入口