大院网-山西大院资讯网

 

 

0

 

清华大学黄民烈团队:发布安全评估框架 促大模型迈向可控可信

网络编辑 国内 2023-03-27 22:40:31 0 模型 安全 场景

北京3月27日电 (贾君玉 张素)记者近日采访清华大学计算机科学与技术系长聘副教授黄民烈获悉,历时两年多时间,由他带领的科研团队建立了大模型安全分类体系,并从系统层面和模型层面等打造了大模型安全框架。

近年来,随着技术突破,大模型获得快速发展并在多个场景得到应用。不过,其存在的事实性错误、知识盲区等问题,以及面临的训练数据来源合规性、生成内容安全性等风险,也已受到广泛关注。

在黄民烈看来,要规避安全风险,降低人工智能对人类的负面影响,关键在于大模型底座。“大规模语言模型(LLM)发展到现在,模型结构和规模已有很大进展,但实用性还有待加强,我们应该通过技术让模型更加安全、可控,使其快速适配更多的应用场景。”他说。

此次,聆心智能联合清华大学CoAI实验室共同发布大模型安全评估框架。作为聆心智能的创始人,黄民烈介绍说,他们希望通过对大模型应用边界进行定义,促进大模型生态健康发展,推动人工智能研究和应用向更有用、更可信、更安全迈进。

据知,黄民烈团队建立的大模型安全分类体系中设定的不安全对话场景,包括犯罪违法、身体健康、心理健康、财产隐私、歧视/偏见、辱骂/仇恨言论等方面。科研人员针对这些安全场景对大模型进行升级,使之具备基本的安全性,“能够在遇到安全问题时给予正确的回复策略,不进行判断误导”。

此外,着眼于容易触发的安全问题类型,科研团队还总结、设计出一般模型难以处理的“安全攻击方式”,使安全体系更加完善。

黄民烈表示,未来,他们将打造中文大模型的安全风险评估的Leaderboard,为国内对话大模型的安全评估提供公平公开的测试平台,并提供针对中文对话的安全场景等,“依托自身核心技术,在可控可信的超拟人大模型基础之上,通过建立安全、可控的模型边界,让人工智能提供可信、可靠的输出”。(完) 【编辑:田博群】

孔子为何被海峡两岸共同纪念?

官方:采取切实措施避免大数据杀熟等侵害旅游者权益行为

英国一港口发生重大漏油事故 当局成立最高级应急指挥部

美国一警用直升机追捕嫌犯时坠毁 两名警察当场身亡

贵州省政协党组成员、原副主席李再勇接受审查调查

63人上榜!中央政法委发布两个季度“见义勇为勇士榜”

《三体》改编为漫画,科幻漫画未来会有多大市场?

体验“18.8元祛痘” 消费者掉进网贷连环套

美国多地遭强风暴袭击:房屋被掀翻,灾区如“战场”

故意隐瞒、模糊处理……食品配料表应按规范标明

大学生心理健康状况调查出炉!升学成最大风险因素

“村BA”总决赛激战正酣 冠军争夺战因降雨推迟

记者调查:非学科类培训机构普遍不顾限令推销大课包

燃油车和新能源汽车纷纷降价为哪般?对车市影响几何

全面降准正式落地!6000亿资金入市,影响多大?

外企老总为何齐聚北京?“下一个中国在中国! ”

《狂飙》之后,张颂文渴望“自由”

“投资中国就是选择未来”!外国驻港总领事这样说……

 

0

 

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
本文地址:http://www.shanxidayuan.com/zcjh/jishixinwen/124561.html

留言与评论(共有 条评论)

   
验证码:

关于山西大院新闻网

山西大院是公共的资讯平台,公开,绿色,守法,其主要目的服务于广大本地网民的综合门户网站,还拥有强大的本地公共服务导航一站式进入本地各大政府服务平台方便业务开展。

 

山西大院新闻网

Copyright ©山西大院新闻网

copyright protection: All articles, text, video, pictures, music sources and network reproduced non-original works, only for learning and communication, the content of the article information does not mean

that the network agrees with its views or is responsible for its authenticity, if there are any problems, please contact the webmaster for processing at the first time!

版权声明: 本站所有文章,文字,视频,图片,音乐来源与网络转载非原创作品,仅限于学习交流,对文章信息内容并不代表本网赞同其观点或对其真实性负责,如果存在任何问题,请第一时间联系站长处理!