AI-DimSum学术沙龙(八)
聚焦粤语语料安全治理与技术应用创新
羊城初夏,珠江潮涌。5月11日,由粤语语料库建设与大模型评测重点实验室(以下简称“重点实验室”)主办的“AI-DimSum学术沙龙”第八期在广州大学荔湾研究院/研究生院举行。沙龙围绕“粤语语料安全治理与技术应用创新”主题,沿用 “技术攻坚—学术突破—多元对话”的跨学科融合研讨模式,探索粤语语料的安全治理路径与技术研发方向。

技术研讨环节,重点实验室各团队分享了粤语语料库的研发进展。标注团队创新构建工作流管理系统,运用“容器化语言空间”架构,使多团队能在加密环境下高效开展协同标注工作,为方言语料工程的规模化推进筑牢技术根基。在AI工具开发方面,平台建设团队现场演示了近期开发的几款应用,并介绍了粤语语料库平台数据库建设的最新进展。
学术报告环节,重点实验室团队成员汇报了各自近期工作进展。暨南大学彭志峰教授团队成员余睿汇报了“粤方言语料库助力短视频平台审查升级改造的应用研究”成果,华南师范大学邵慧君教授团队博士研究生谈日星介绍了针对粤语大模型安全的关键语料库建设进展情况。


自由讨论环节,重点实验室主任齐佳音教授介绍了团队赴青海师范大学调研藏语语料库收获的宝贵经验。随后,参会人员围绕岭南文化精神标识体系构建、推动聚焦问题的学科交叉合作,以及后续对《羊城晚报》岭南文化大模型等开展调研等议题,展开了充分的互动交流。
粤语语料库建设与大模型评测重点实验室由广州市社会科学界联合会与广州大学联合共建,旨在通过“粤语+人工智能”的文化科技融合创新,推动粤语传承传播与发展。实验室由中国工程院院士、广州大学方滨兴教授,香港科技大学(广州)党委书记、国家语言服务与粤港澳大湾区语言研究中心主任屈哨兵教授担任双首席科学家,广州大学网络空间安全学院齐佳音教授担任重点实验室主任。2025年3月,重点实验室正式进驻广州大学荔湾研究院/研究生院。
本文转载自“AI-DimSum Cantonese Corpus”公众号。
【供稿 粤语语料库建设与大模型评测重点实验室】
【编辑 张瑨欣、马翠怡、周子寒】
【初审 罗欢】
【终审 禤健聪】