【实验室简介】
粤语语料库建设与大模型评测重点实验室,系成立于2024年11月的广州市哲学社会科学重点实验室,由广州市社会科学界联合会与广州大学合作共建,致力于通过“粤语+人工智能”推动粤语文化的传承与创新发展。实验室由方滨兴院士和屈哨兵教授担任双首席科学家,齐佳音教授担任主任,为跨学科前沿交叉研究机构,采用“1+1+N”架构,汇聚高校、科研机构、社会组织和企业力量,开展粤语文化、语料库建设、大模型交互质量等研究,目标是成为粤语文化数据资源基础设施和内容安全评测中心,建设高质量、多模态、安全可信的粤语语料库及大模型评测工具,助力粤语的数据化、资源化和产业化。

2025年3月2日,一场聚焦“粤语+人工智能”的学术沙龙在广州大学荔湾研究院火热开启!由粤语语料库建设与大模型评测重点实验室主办的首期“AI-DimSum学术沙龙”,吸引了来自粤港澳大湾区多所高校的30余名科研骨干参与,正式吹响2025年重点实验室科研攻关的号角。
开场速递
粤语语料库开源计划启动
沙龙开场,实验室主任齐佳音教授宣布启动粤语语料库开源生态建设计划。这一计划将从技术、协作、数据共享以及语言学、文化保护等方面,积极探索构建数字时代语言保护新模式,通过科技赋能,让粤语在数字时代焕发新生。
硬核分享
AI黑科技如何守护粤语?
三大亮点抢先看
亮点1:动态采集粤语“基因”
暨南大学彭志峰老师团队推出“AI驱动的粤语地理分布数据系统”,通过智能技术实时抓取方言数据,并生成可视化图谱,为濒危方言保护提供“科技处方”。
亮点2:多模态平台玩转语料
李骜华研究员展示了集成AI Agents、私域搜索引擎和SaaS服务的多模态语料库平台,未来用户只需“动动手指”,即可调用AI分析方言规律。
亮点3:开放共享打破壁垒
广州大学博士生贾堃提出“多模态标注平台共享方案”,推动高校、企业数据互通,打造粤语研究的“开源社区”。

头脑风暴
三小时激辩:
粤语语料库如何“出圈”?
在研讨环节,专家们围绕“标注规则”“资源共享”“平台架构”展开激烈讨论:
标注规范:是否需制定统一标准?如何兼顾不同地区的粤语变体?
数据共享:如何平衡开源与隐私保护?激励机制如何设计?
技术落地:大模型如何适配粤语特性?方言识别准确率如何突破?
近三小时的思维碰撞,为粤语语料库建设勾勒出清晰蓝图。
实验室揭秘
谁在推动“粤语+AI”跨界融合?
实验室由广州大学与广州市社科联合作共建,双首席科学家阵容豪华:
方滨兴院士
中国工程院院士、广州大学网络空间安全学院名誉院长
屈哨兵教授
香港科技大学(广州)党委书记、国家语言服务与粤港澳大湾区语言研究中心主任
实验室主任齐佳音教授表示:“我们的目标不仅是保护方言,更要让粤语成为AI时代的‘活语言’。”

粤语是岭南文化的灵魂,AI是未来科技的引擎。当两者相遇,会诞生怎样的奇迹?关注“粤语语料库建设与大模型评测重点实验室”,第一时间获取最新动态!
本文转载自“广州社科”公众号。
【编辑 张瑨欣】
【初审 罗欢】
【终审 禤健聪】