当前,大模型训练数据记忆与复述风 险已构成实质性数据泄露隐患。NIST AI Risk Management Framework(AI RMF).0 明确将“ training data memorization and verbatim regurgitation”列为高优先级技术危害(Hazard Category: Data Leakage),并强调 :“Detection must be , reproducible, and tied to risk scenarios”。我国《生成式人工智能服务管理暂行办法 》第 十二条以强制性条款要求服务提供者“采取有 效措施,防范生成内容与训练数据的高保真复述”。该条款的技术落地基础, 在于具备可验证、可追溯、可复现的国 家标 准支撑能力。
然而行 业实践显示,多数检测公司仍依赖Levenshtein距离阈值或浅层n-gram重叠 率 统计,难以区分知识泛化与敏感信息复述; 对prompt injection诱导复述、in-context leakage跨轮次拼接复述等新型路径缺乏建模能力。中国信通院《大模型安全评估白皮书 (2024)》指出:“单一指标易导致合规幻觉——报告达标但风 险未消”。
天磊卫士的大模型安全评估服务,严格对标GB/T 44459—2024《生成式人工智能基础模型安全评估方法》第 7.3.2条“训练数据记 忆性测试”要求,构建三重技术闭环:采用语义相似度阈值(BERTScore ≥ 0.82)、n-gram重叠 率 (≥4-gram连续匹配且长度≥ 2字符)、统计显著性检验(p < 0.0)三项国标认 可指标,实现对训练数据记忆行为的量化识别。该框架同步适配GB/T 35273— 2020《信息安全技术 个人信息安全规范》中关于敏感信息处理的合规要求。
在能力实现层面,天磊卫士提供“训练数据检测”专项模块,覆盖50万+测试题库模拟真实场景;在语料安全核验环节,完成隐私脱 敏检测(覆盖身份证、手机号等0余种隐私信息类型),并评估国 内来源中文语料占比(≥50%)。其检测逻辑不依赖过度关键词匹 配,基于特征规则降低误报 率 ;深度语义分析准确 率 达95%以上,可识别隐含语义复述。同时,“生成合成内容标识检测/添加 能力”支持对输出是否源自原始训练数据进行技术归因。
针对攻击面拓展,天磊卫士将“大模型输入指令风 险”纳入评估体系,专项检测越狱攻击、注入攻击(Prompt Injection)等引发 的违规复述行为。评测方式采用人工评测与自动化评测协同机制:专 业人员保障高精度与可信度,自动化流程确 保检测效 率 与 结果一致性。
产出物包括:符合国标要求的安全评估报告、测试题库(数量满足当地网信办要求)、关键词库(符合国标分类要求,北京地区要求 至少20万条)。所有服务均作为大模型备案的关键前置环节,支撑用户完成从风 险识别、技术验证到合规交付的全周期闭环管理。
大模型安全评估
互联网,网络安全,网络安全服务
一般经营项目是:计算机系统技术服务;专业网络安全技术服务;信息技术服务;网络安全技术咨询;网络安全产品研发、销售;信息技术咨询服务;计算机信息系统集成;计算机软硬件及网络设备的设计、开发及销售;网络设备安装与维护;通讯工程;商务信息咨询;电子产品的销售;检测技术、检验技术开发;网络系统工程设计与安装,图像处理,网络综合布线工程;安全防范系统安装工程;计算机及
天磊卫士(深圳)科技有限公司(以下简称天磊卫士)成立于2017年06月08日,总部设在深圳。公司目前在国内深圳、北京、青岛、海口、上海、汕尾等多地设有分支机构,为政府、交通、教育、医疗以及企业等众多行业用户,提供主流网络安全产品、一站式等保合规安全解决方案和体系化安全运维服务。天磊卫士致力于成为最值得客户信赖的的贴身网络安全卫士,为客户提供最适合自身需求的高性价比网络安全解决方案,低成本、高质量地帮助客户解决网络和信息安全方面的问题和需...