AI-DimSum学术沙龙(二)
共探粤语语料库开源建设
3月14日,由粤语语料库建设与大模型评测重点实验室(以下简称“重点实验室”)主办的“AI-DimSum学术沙龙”第二期在广州大学荔湾研究院/研究生院会议室举行。重点实验室负责人及十余名科研骨干线上线下参与,围绕粤语语料库开源生态建设展开深度研讨。

本期沙龙聚焦粤语语料库建设的核心挑战,针对“数据库标准确立准则”“底层数据表构建”“语料库建设方式”及“产品可视化方案”四项议题进行专项研讨,明确以语言学规范与AI技术需求双驱动构建数据标准,设计多模态语料结构化存储方案,通过开源生态共建,规划交互式分析平台提升语料调用效率,推动产学研协同采集模式,加速粤语资源的标准化、共享化应用。
研讨环节,重点实验室成员就粤语语料资源共建共享、语料库平台架构设计等展开热烈讨论。本期沙龙进一步明晰了重点实验室建设的技术路径与合作机制,为后续攻关凝聚了共识。

粤语语料库建设与大模型评测重点实验室由广州市社会科学界联合会与广州大学联合共建,旨在通过“粤语+人工智能”的文化科技融合创新,推动粤语传承传播与发展。实验室由中国工程院院士、广州大学方滨兴教授,香港科技大学(广州)党委书记、国家语言服务与粤港澳大湾区语言研究中心主任屈哨兵教授担任双首席科学家,广州大学网络空间安全学院齐佳音教授担任重点实验室主任。2025年3月,重点实验室正式进驻广州大学荔湾研究院/研究生院。
【供稿 粤语语料库建设与大模型评测重点实验室】
【编辑 张瑨欣】
【初审 罗欢】
【终审 禤健聪】