当前位置: 首页   >   学术动态   >   正文

AI-DimSum学术沙龙第九期:地理语言学与粤语大模型

发布日期:2025-05-23

AI-DimSum学术沙龙(九)

地理语言学与粤语大模型


羊城骤雨初歇,初夏蝉鸣渐起。5月18日,由粤语语料库建设与大模型评测重点实验室(以下简称“重点实验室”)主办的“AI-DimSum学术沙龙”第九期在广州大学荔湾研究院/研究生院举行,来自粤港澳三地高校多位学者围绕“地理语言学与粤语大模型”议题展开热烈研讨。这场持续近四小时的学术对话与思维碰撞,在风雨声中更显科研攻坚克难的勇气。



学术报告环节,跨学科思维持续发力、纵深推进。暨南大学汉语方言研究中心甘于恩教授以《迈向全息化的地理语言学——以广东粤方言为主》为题,系统阐释了基于语言数据的空间化粤语文化基因图谱构建范式。报告通过全息化的地理语言学、广东地理语言学的前世与今生、乡音文化地图与全息化、粤语乡音文化地图与粤语大型语料库建设四大维度,与重点实验室成员共同解析粤方言空间分布规律与文化传承的深层关联,拓宽与挖掘广东地理语言学的广度与深度。


甘于恩教授在报告中强调,方言工作者应兼具田野调查的实证精神与数字技术的创新能力,既要将论文深耕于田野大地上,又要推动高科技成果应用转化,使之在现代社会中得到更好的应用、推广,可谓“任重而道远”。他指出,从这个方面来讲,破除“文科无用论”关键在于方言工作者如何展现文科与科技深度融合的实践价值。



技术研讨环节,与会学者围绕粤语学习平台开发、数据标注系统优化及AI技术融合等核心议题进行了深度探讨。语料库平台开发团队介绍了基于微信生态构建的粤语学习小程序——用户可通过扫码注册,体验跟读练习、语音评测及互动游戏等应用模块,系统将结合场景化语料提供实时反馈。数据标注团队则展示了AI预标注与人工审核协同机制——通过任务分流、交叉检验提升标注效率与准确性,同时,团队还计划将标注规范从语音层面扩展至文化特征等多维度。此外,研讨还涉及语料库安全治理方案等议题,强调以开源社区协作与标准化建设推动语言资源的可持续开发,为粤语方言保护提供技术支撑。


粤语语料库建设与大模型评测重点实验室由广州市社会科学界联合会与广州大学联合共建,旨在通过“粤语+人工智能”的文化科技融合创新,推动粤语传承传播与发展。实验室由中国工程院院士、广州大学方滨兴教授,香港科技大学(广州)党委书记、国家语言服务与粤港澳大湾区语言研究中心主任屈哨兵教授担任双首席科学家,广州大学网络空间安全学院齐佳音教授担任重点实验室主任。2025年3月,重点实验室正式进驻广州大学荔湾研究院/研究生院。



本文转载自“AI-DimSum Cantonese Corpus”公众号。



【供稿 粤语语料库建设与大模型评测重点实验室】

【编辑 张瑨欣、马翠怡、周子寒】

【初审 罗欢】

【终审 禤健聪】

Copyright © 2024 广州大学荔湾研究院(研究生院) 版权所有
地址:广州市荔湾区西堤二马路37号文化公园广州十三行文化科技中心二楼

Copyright © 2021 广州大学岭南文化艺术研究院 版权所有
地址:广州市大学城外环西路230号行政东楼前座646、648  邮编:510006