(资料图)
近日,“智善·观行”人工智能大模型伦理安全观测站正式发布。该观测站由中国科学院自动化研究所人工智能伦理与治理研究中心、远期人工智能研究中心联合研发并提供服务。
据介绍,“智善·观行”人工智能大模型伦理安全观测站通过公众参与、公众反馈的众包模式邀请公众参与对不同企业、学术机构等发布的人工智能大模型的伦理安全评估,并通过在线提交测试结果的形式反馈大模型输出存在的伦理安全问题、以及输出结果合乎伦理安全的案例。相关评估结果与问题在网上公开,一方面为涉及到的人工智能大模型提供帮助和反馈便于其自身的进一步改进,另一方面所有人工智能大模型的研发均可以参考其他模型存在的潜在问题,以及合乎伦理安全的输出,利用相关的问题与案例来改进自身服务。
“智善·观行”人工智能大模型伦理安全观测站的底层基于“智善·思齐”人工智能治理公共服务平台(AI Governance Online)提供的伦理安全评估维度,从合法合规、环境与社会有益、以人为本、公平性/无偏见、可问责/可追溯/可审核、透明性/可解释性/可信赖、隐私与数据保护、安全性/可控性/可靠性等8大维度展开伦理安全评估,映射到人工智能大模型伦理安全风险的14个具体类别并通过公众参与的方式对案例进行分类。
据了解,“智善·观行”名称取自“察言观行”,即通过汇聚公众对人工智能大模型的伦理安全测试反馈来观察评估现有人工智能大模型表现出的“道德品行”,从而为进一步改善相关人工智能大模型提供参考依据。
目前,“智善·观行”人工智能大模型伦理安全观测站已覆盖了来自ChatGPT、Bard、文心一言、MOOS、ChatGLM-6B、SAM、BELLE-7B-2M、Claude等语言大模型、视觉大模型等的案例。
关键词: