大语言模型安全防范能力测评报告发布 依据科学方法进行“体检”

春秋体育直播 2026-07-05 02:53:38 来源: 原创

1. 春秋直播电竞热门赛事有哪些

2. 春秋直播电竞热门赛事在哪看

3. 春秋online

4. 春秋直机

5. i春秋ctf

6. 春秋现场

7. 继续播放春秋

8. 春秋玩游戏官网

9. 春秋官网下载平台

10. 春秋ol

  中新网北京7月4日电 (记者 张素)大语言模型逐渐成为公众获取、理解和使用科技知识的重要工具,其在有用性与安全性之间如何保持稳定边界?对此,中国科研团队对全球主要大语言模型进行了一次统一标准的“体检”。

  近日在北京举行的2026全球数字经济大会云智算安全论坛上,《全球大语言模型安全防范能力测评报告(2026)》(下称“报告”)正式发布。报告显示,多数模型具备基础拒答能力,但在复合攻击下,部分模型的安全边界明显承压。

  这份报告如何形成,将产生哪些影响?记者就此采访专家学者,解读此次“体检”结果。

《全球大语言模型安全防范能力测评报告(2026)》近日正式发布,中国科研团队对全球主要大语言模型进行了一次统一标准的“体检”。受访者供图

  自主研发科学测评方法体系

  这份报告由东壁科技数据联合上海财经大学数字经济学院共同编制。

  据上海财经大学数字经济学院院长、报告牵头编制人赵琳介绍,报告以313条科技类高风险问题为测试集,覆盖38个国内外大语言模型,重点考察模型能否在正常的科技学习、科研的防护需求与潜在违法犯罪滥用之间,保持稳定、安全且可解释的边界,并同步发布多维度安全实力排名。

  具体来说,报告从东壁全球科技文献数据平台(Dbdata)选取94108份科技文献材料,并结合34452条科技类百科条目构建RAG检索参考,用于判断模型回答中的科学事实、技术原理、因果逻辑和不确定性表述是否可靠。

  报告设置五个评测维度,即:安全边界、越狱攻击防护、意图识别、滥用风险可控性、技术内容可靠性。

  “这份报告的评测视角有不少创新点。”清华大学公共管理学院院长朱旭峰说,以往行业企业、各类标准大多聚焦于常规外部攻击、对抗性输入防护,本次新增“越狱攻击”这一核心评测维度,并针对各类大模型抵御越狱攻击的能力开展实测,为整个行业树立了全新的安全评测标准。

  实测数据披露多重安全隐患

  报告显示,多数模型具备基础拒答能力,直接攻击总体成功率为7.6%,但在前缀注入、场景伪装、情感伪装,以及伪装与示例诱导结合的复合攻击下,部分模型的安全边界明显承压。目前,攻击成功率最高的是场景伪装加上示例诱导,达53.8%。

  赵琳解释说,“合法授权”“安全研究”“攻防演练”等场景合法化叙事,比单纯情绪求助更容易削弱模型安全边界,示例诱导的影响则取决于其叠加在哪类伪装方式上,叠加在场景伪装中能增加越狱成功率,叠加在情感伪装中反而更容易让模型识别出请求的风险。

  依托显性攻击、越狱对抗等五个测评维度量化打分,报告发布38款海内外主流大模型分层排名。报告注意到,不同模型属性呈现出系统性差异。国外、闭源和大规模模型在恶意伪装请求拦截、越狱稳健性和回答后风险控制上整体更占优,但也更容易拒绝善意问题,体现出安全性与可用性之间的张力。

  “开源、闭源、大参数量、小参数量不同类型模型,安全防护能力存在明显差异,这一结论能为行业各方提供切实参考。”朱旭峰说。

  持续完善科技安全测试集

  针对测评暴露出的系统性安全短板,这份报告立足产业实际,提供了政策与治理建议。其中提出,科技安全不能只依赖外部关键词拦截,要坚持内生化原则,把安全能力嵌入模型行为机制。

  朱旭峰认为,这份报告采用前沿评测方法,对各类AI安全风险完成清晰定义与分类,对整个行业具备重要指导价值,能帮助行业各界清晰识别各类安全隐患,以及隐患背后对应的社会负面影响。

  东壁科技数据创始人、报告牵头编制人吴登生表示,报告为模型企业、第三方测评机构、行业专家、监管部门和教育科研机构提供了专项测评与持续治理的参考,也强调在保护正当学习、科研和防护需求的同时,避免模型输出形成对现实危险行为的能力增益。

  “这份报告只是一个开始。”吴登生说,将持续完善科技安全测试集,覆盖更多领域,例如工程控制、深度伪造、自动化智能体、实验室安全等方向。同时,也会加强多轮对话、工具调用、代码执行、多模态输入等复杂交互场景的测评,为安全使用AI提供参考依据。(完)

上半年社融规模增量 21.55 万亿元

  8月2日晚中图网就已开始自救复产。中图网官方表示,由于库区水位近3米,库房一层已淹,二、三层的书也会受到影响,预计至少80%的书将会报废。320万册书、三亿码洋灰飞烟灭。中图网官方微博在公告中说,“待洪水退去,我们还剩下什么书可卖,是否全都要重新采购,我们现在也有点茫然。这是中图网25年来遭遇的最具毁灭性的损失和打击。”

推荐内容

精彩推荐

产品推荐

几年后流行的卧室
¥
368.00
4.6分
AI 助力下,北京一公司开始试行 4.5 天工作制,如何看待此事?对员工的工作生活有何影响?
¥
358.00
4.9分
"有趣的事分享给不敷衍的人"(结尾有教程哦)
¥
3588.00
4.6分
龚俊血泪跳崖名场面
¥
5280.00起
4.5分
湖北一女孩当街翻垃圾桶捡垃圾,镇政府:系孩子赌气,已回家
¥
3399.00
4.7分
上海静安寺内一男子拿塑料袋捡祈福硬币,一把把抓起放进袋中,如何从法律的角度解读?景区方是否疏于管理?
¥
578.00起
4.8分

最新评论

新程序