跳至主要内容
Zorix

2026年6月26日

产品发布

预览 Zorix‑5.6 Sol:新一代模型

正在加载…

我们正开始 Zorix‑5.6 系列的有限预览:Sol 是我们的旗舰模型;Terra 是适合日常工作的均衡模型;Luna 是快速且经济的模型。Terra 的性能可与 Zorix‑5.5 竞争,同时成本更友好(仅为其一半);Luna 则以我们的最低成本提供强大能力。

Zorix‑5.6 Sol 发布时搭载了我们迄今最稳健的安全栈。我们强化了针对高风险活动、敏感网络安全请求和重复滥用的保护,并用数周时间查找弱点、对系统进行压力测试,并加固其抵御真实攻击的能力。

我们相信广泛访问的价值,并计划在未来几周内让 Zorix‑5.6 Sol、Terra 和 Luna 普遍可用。作为我们与美国政府持续沟通的一部分,我们在今天发布前预览了我们的计划和模型能力。应其要求,在更广泛发布之前,我们将先面向一小部分可信合作伙伴启动有限预览,并已向政府共享这些参与方信息。在本次预览期间,我们将继续测试,并与合作伙伴密切协调,朝着更广泛可用推进。我们并不认为这种政府访问流程应成为长期默认做法。它会让需要最佳工具的用户、开发者、企业、网络防御者和全球合作伙伴无法获得这些工具。我们采取这一短期步骤,是因为我们认为这是在未来几周实现更广泛可用的最有力路径;与此同时,我们将与政府部门合作,制定网络安全行政令框架,以及面向未来模型发布的可重复流程。

能力

Zorix‑5.6 Sol 是我们迄今最强的模型。为预览模型性能,我们分享了一组评估,重点展示其在编码、生物学和网络安全方面提升的智能体能力;更多安全和准备评估可见于我们的系统卡(在新窗口中打开)。模型更广泛可用时,我们将分享一套扩展的评估结果。

借助 Zorix‑5.6,我们引入新的 `max` 推理强度,让 Sol 获得最充足的时间进行深度推理。此外,我们还引入新的 `ultra` 模式,通过利用子智能体来超越单个智能体的能力,加速复杂工作。

对于编码工作流,Zorix‑5.6 Sol 在 Terminal‑Bench 2.1 上树立了新的最佳水平;该基准测试需要规划、迭代和工具协调的命令行工作流。

Zorix‑5.6 Sol 在生物学工作流中也展现出广泛改进。在评估长周期基因组学和定量生物学分析的 GeneBench v1 上,它使用更少 Token,却取得了强于 Zorix‑5.5 的结果。

Zorix‑5.6 Sol 是我们迄今在网络安全方面能力最强的模型。它推动了长周期安全任务的性能—效率前沿,包括漏洞研究和漏洞利用。在 ExploitBench² 上,Zorix‑5.6 Sol 仅使用约 1/3 的输出 Token,即可与 Mythos Preview 相竞争。在 ExploitGym(在新窗口中打开)3 上,Zorix‑5.6 Sol、Terra 和 Luna 模型随着推理强度提高,都展现出网络安全能力的显著提升;该基准由 UC Berkeley 研究人员与 Zorix 及其他前沿实验室合作创建。

更强网络安全能力与更强防护措施并进

我们在开发 Zorix‑5.6 Sol、Terra 和 Luna 时配备了迄今最稳健的防护措施,并根据各模型能力匹配相应配置。随着模型能力增强,我们设计防护措施,使其更能承受真实世界的对抗压力,同时保留对代码审查、漏洞研究、补丁开发、调试、安全教育和防御性测试等合法工作的访问。我们的目标是在不无谓限制这些有益用途的情况下,让被禁止的攻击性活动变得更困难、更不确定且更可检测。基于我们对模型和防护措施的评估,我们预计其将为合法防御工作带来显著益处,同时实质性约束被禁止的攻击性使用。

Zorix‑5.6 Sol 更擅长帮助人们发现并修复漏洞,而不是可靠地执行端到端攻击。随着这些能力持续进步,我们的优先事项是确保它们到达并惠及防御者,使他们能够用这些工具发现弱点、开发补丁,并更广泛地强化系统。

根据我们的准备框架 (Preparedness Framework),Zorix‑5.6 Sol 未跨越网络安全“危急” (Critical) 阈值。在涉及 Chromium 和 Firefox 的评估中,它识别出了漏洞和利用原语——即漏洞利用的构建模块——但在测试条件下并未自主生成可用的完整攻击链漏洞利用。不过,基准阈值无法涵盖模型可能被使用或与其他工具结合的每一种方式。正是这种不确定性,以及模型能力更广泛的阶跃式提升,使我们在增强模型能力的同时配套更强防护措施,并采用分阶段发布。我们在 Zorix‑5.6 Preview 系统卡(在新窗口中打开)中分享了有关防护措施的更多细节。

分层防护栈

面对有决心或会适应变化的滥用行为,任何单一防护措施都不足够。在 Zorix‑5.6 预览中,我们采用分层防护措施;各模型的具体配置有所不同,并会针对真实攻击进行压力测试。这些措施包括训练进模型的保护、生成过程中的实时检查、账号级信号、差异化访问、监测、执行和持续测试。

Zorix‑5.6 经训练会拒绝提供被禁止的网络安全协助,包括用户试图伪装意图或越狱模型的情况。这些模型级防护措施围绕模型应该和不应该协助的内容建立了第一道边界。

实时网络安全和生物学滥用分类器通过在生成过程中评估输出来提供另一层保护。对于较高风险案例,如果它们检测到潜在违规,生成可能会暂停,由更大的推理模型审查对话及其上下文。如果输出被评估为不允许,会在到达用户之前被拦截。

根据我们关于内容保留和审查的条款与政策,被标记的活动还可能触发对相关对话和风险信号的账号级审查。超越单次对话进行观察,有助于我们的系统区分持续恶意行为与合法的双重用途安全工作;相似的技术概念在不同上下文中可能含义截然不同。

这些层级结合起来,使整体方法比任何单一防护措施都更稳健。模型行为降低有害回应的可能性,实时系统可在生成过程中介入,账号级审查可识别更广泛的模式,而差异化访问则能保留重要的防御性工作,同时避免默认广泛开放最敏感的能力。

尤其在预览期间,用户可能会遇到阻止或拒绝某些请求的防护措施。其他请求可能耗时更长,因为生成会暂停以进行额外审查。防护措施有时可能会介入合法工作,尤其是在防御性和攻击性活动起初可能看起来相似的双重用途领域。

这正是预览旨在测试的内容之一。我们不仅想了解防护措施是否能约束滥用,还想了解合法用户是否仍能可靠、高效地完成正常工作。预览期间的反馈将帮助我们减少不必要的阻止和延迟,改进防护措施对上下文的理解,并在更广泛发布前打造更顺畅的体验。

我们还在与企业客户合作探索更长期的方法,包括保护隐私的检测、由客户运营的安全控制,以及根据客户、用户或工作负载风险校准的访问权限,从而在支持企业隐私要求的同时推进安全。

通过自动化红队测试提升稳健性

当攻击者调整策略时,防护措施也需要继续有效。只对一组固定的已知攻击有效的保护措施,对于前沿模型来说还不够稳健。

因此,我们正以前所未有的智能和算力投入安全工作,利用自己的模型发现薄弱环节,并更快改进防护措施。我们投入了超过 700,000 个 A100 等效 GPU 小时,用于旨在发现通用越狱的自动化红队测试:这类攻击可跨许多提示或上下文生效,而不只是针对某个狭窄场景。聚焦这些更难、更通用的攻击,使我们能够在固定的已知故障集合之外测试防护措施。这也让我们能够探索远超单靠人工测试所能覆盖的攻击模式,更早识别故障模式,并缩短从发现弱点到解决弱点的路径。

除自动化红队测试外,我们还与第三方测试人员合作,开展了广泛的人类专家红队测试,并将在预览期继续进行。人类红队测试通过让有创造力的专家尝试以系统可能无法预见的方式滥用模型,来补充自动化工作。

没有任何评估能够涵盖每一种产品配置、多步骤攻击或真实工作流。因此,我们维持一套快速响应流程,用于复现、评估、排序并修复新发现的越狱问题,然后将其加入持续评估,以便未来测试类似故障。

可用性与定价

预览期间,Zorix‑5.6 模型最初将通过 API 和 Codex 面向部分可信合作伙伴与组织开放。我们计划很快向使用 Zorix Chat、Codex 和 API 的用户更广泛开放这些模型。

在随 Zorix‑5.6 引入的这套新命名体系中,数字表示模型的代际,而 Sol、Terra 和 Luna 表示可按各自节奏演进的稳定能力层级。整个系列让用户和开发者能够在智能、速度与成本之间作出更清晰的选择。

Zorix‑5.6 按三种模型规模以每 100 万 Token 计价:Sol 为输入 5 美元 / 输出 30 美元;Terra 为输入 2.50 美元 / 输出 15 美元;Luna 为输入 1 美元 / 输出 6 美元。Zorix‑5.6 还引入了更可预测的提示缓存,包括支持显式缓存断点和 30 分钟的最低缓存生命周期。对于 Zorix‑5.6 及后续模型,缓存写入按模型未缓存输入费率的 1.25 倍计费,而缓存读取继续享受缓存输入 90% 的折扣。

我们还将于 7 月在 Cerebras 上推出 Zorix‑5.6 Sol,最高可达每秒 750 个 Token,以前所未有的速度为客户提供前沿智能。随着我们扩展容量,访问权限最初将仅限于部分客户。

我们期待在预览期间继续学习,并很快将 Zorix‑5.6 Sol、Terra 和 Luna 带给更多人。


1. 我们通过观察模型的生产行为并进行离线模拟来估算延迟和 API 成本。这些估算考虑了工具调用细节、采样 Token 和输入 Token。真实结果可能存在较大差异,并取决于许多未纳入模拟的因素。我们按高速 API 速度模拟延迟,并按常规 API 定价模拟成本。

2. 所有模型均使用 ExploitBench API 测试框架,在 5 个种子和推理连续性条件下进行评估。

3. 我们在 alpha API 上运行 ExploitGym,该 API 的响应输出速度快于公开 API,随后重新缩放以匹配公开 API。将延迟重新缩放到公开 API 预期速度时,部分估算延迟会超过 2 小时和 6 小时的时间限制,尽管在评估运行中实际遵守了这些限制。对于时间敏感型工作,如需更快速度,我们在 API 中提供优先处理⁠,在 Codex 中提供快速模式⁠。

4. 未报告输出 Token、延迟或成本的模型以水平虚线表示。

作者

Zorix