计算机领域专家学者、业界代表为国产大语言模型创新发展献智献策
2023-08-28 19:13:41 来源: 东南网 责任编辑:陈玮 作者:张立庆东南网8月28日讯(本网记者 张立庆)ChatGPT引领了大语言模型的发展,也带来了内容可信的问题。一方面,大语言模型易受输入数据影响,那如何避免因此导致的生成信息不准确呢?另一方面,大语言模型又该如何甄别生成内容,提高生成内容的质量?国产大语言模型有可能避开“胡言乱语”,走向“字字珠玑实事求是”的彼岸吗?8月26日,由中国计算机学会主办,中国计算机学会计算机科技论坛福州分论坛承办的“追求真相的迷径:大语言模型披荆斩棘追求真实的技术之路”技术论坛在福建师范大学福建省网络安全与密码技术重点实验室举办。 论坛现场 主办方供图 来自福建省内多所高校、福建本土企业代表及业界人士共三十多人汇聚一堂,就大语言模型内容可信的话题展开讨论和思辨。 论坛现场活动包括引导发言和思辨环节两部分。针对论坛主题,现场邀请了福建师范大学计算机与网络空间安全学院(软件学院)院长、福建省网络安全与密码技术重点实验室主任许力教授作为特邀嘉宾和4位来自厦门大学、中国科学院信息工程研究所、华侨大学和百度(中国)有限公司的嘉宾作引导发言。 福建师范大学计算机与网络空间安全学院(软件学院)院长许力教授发言 许力教授表示,ChatGPT带来了新的生产模式,同时也产生了很多安全问题,大语言模型内容真实可信是诸多安全问题的重中之重,而可信性问题来源与大语言模型所使用的训练数据质量是息息相关的,如何筛选获取高质量的数据,并对大模型生成内容质量进行评价就显得尤为重要;大模型在各行各业中的应用关乎国家经济发展和社会稳定,设计高质量、安全的国产大模型也是我们今后需要努力的方向。随后,厦门大学教授史晓东、中国科学院信息工程研究所张逸飞博士、华侨大学李越博士、百度(中国)有限公司的王江天等引导嘉宾分别以“Truthful AI:路艰且长”、“探索可信的大语言模型:从可解释性出发”、“AIGC背景下的可信内容甄别”和“百度文心大模型解读”等方面作引导发言。 在思辨环节,引导嘉宾、特邀嘉宾及所有的参会人员从“如何避免由数据缺陷引发的大语言模型‘胡言乱语’?”“大语言模型如何对生成数据进行判别,提高信息质量?”和“国产大语言模型如何‘字字珠玑实事求是’?”这三个问题展开思辨纷纷表达了自己的观点。 经过与会人员的深入探讨和热烈思辨,论坛形成了三点建设性的意见。 一是要降低数据缺陷对大模型生成内容可信度的影响,大模型建模前,优化训练数据质量;建模中,利用知识增强、知识限制和知识图谱等技术优化模型精准能力;在建模后,结合实际应用场景,人工审核和干预解决大模型生成内容的质量不足问题。 二是在对大语言模型生成内容的质量进行判别时,因生成内容的类型和格式均不同,对大模型生成内容应该分行业、分领域判别。 三是国产大语言模型应该突出中文处理能力,构建规范和高质量的中文语料库是提升国产大语言模型质量的关键,其中谐音字、多音字、错别字等需进行特殊的处理、识别和训练。 与会人员一致认为,国产大语言模型的发展道路还很长,机遇和挑战共存,只有迎头赶上,直面创新带来的挑战,才能做出应有的贡献。 |