一、课题基本信息
课题名称:福建省语言资源有声数据库建设研究(同安库)
主持人:陈曼君
项目类别:福建省中青年教师教育科研 A 类社科重点项目
立项年份:2014 年
资助机构:福建省教育厅社会科学研究与思想政治工作处
研究周期:2014-2016 年
成果形式:同安方言有声数据库(含音频 / 文本 / 标注)、建设技术规范(1 套)、研究报告(1 份)、学术论文(2 篇)
核心定位:构建标准化、规范化的同安闽南方言有声数据库,实现方言资源的数字化保存与共享,为全省语言资源库建设提供示范样本
二、主持人学术背景
陈曼君,集美大学文学院教授、博士生导师,汉语方言学学科带头人,长期深耕闽南方言研究与语言资源保护,具备深厚的方言调查、语料处理与数据库建设经验。
学术履历与成果:
学术专长:汉语方言田野调查、方言数字化保护、闽南方言研究
相关经验:主持完成福建省社科规划项目 “闽南方言句法研究”,参与国家语委 “中国语言资源保护工程” 福建片区调查工作,熟悉语言资源库建设标准与技术规范
学术成果:出版《闽南方言句法研究》等专著,在《方言》《语言研究》等核心期刊发表方言数字化保护相关论文多篇
技术储备:掌握国际音标记音、方言语料标注、音频处理等核心技术,与高校计算机团队合作研发方言数据库管理系统
三、研究背景与问题意识
研究背景
政策导向:2015 年国家启动 “中国语言资源保护工程”,将方言有声数据库建设列为核心任务,福建省作为方言大省,亟需推进区域语言资源数字化保护
现实危机:同安作为闽南文化核心区域,其方言保留大量古汉语特征,但随着城镇化与普通话普及,年轻群体方言使用率持续下降,方言口语材料面临 “人亡语息” 的濒危风险
资源缺口:现有闽南语数据库多聚焦厦门、泉州城区方言,缺乏对同安方言的系统收录;已存资源存在采集标准不统一、语料类型单一、缺乏规范标注等问题
应用需求:同安方言有声数据库可为方言研究、文化传承、语言教学、地方文化建设提供基础资源,兼具学术价值与实践意义
核心问题
如何制定适配同安方言特点的有声语料采集标准(语料类型、发音人筛选、录制规范)?
同安方言有声数据库的架构设计(数据分类、存储格式、检索功能)如何兼顾科学性与实用性?
方言语料的标注体系(语音、词汇、语法标注)如何实现标准化与精细化?
如何构建 “采集 - 整理 - 标注 - 入库 - 共享” 的全流程工作机制,确保数据库质量?
数据库建成后如何实现可持续运营与多场景应用,避免资源闲置?
四、研究框架与内容
1. 研究范围与方法
研究范围:
空间范围:厦门市同安区(含大同街道、祥平街道、新民镇、五显镇等 8 个镇街),覆盖同安方言核心使用区域
语料类型:方言语音(单字、词语、句子、会话)、民俗语料(闽南童谣、谚语、俗语、民间故事)、地方文化语料(同安民俗解说、传统技艺描述)
发音人筛选:按年龄(青年 / 中年 / 老年)、性别、职业分层选取 20 名发音人(其中老年发音人 6 名,确保濒危口语记录)
研究方法:
田野调查法:采用 “实地录制 + 面对面访谈” 方式,按统一标准采集语料,同步记录发音人背景信息
标准化处理法:遵循国家语委《语言资源调查规范》,制定同安方言采集细则,统一录制设备、环境与参数
跨学科合作法:联合计算机专业团队研发数据库管理系统,实现语料存储、检索、展示功能
专家评审法:邀请方言学、语言学专家对语料标注与数据库架构进行多轮评审优化
2. 核心研究内容
(1) 同安方言有声语料采集与整理
发音人筛选:制定 “母语纯正、表达流畅、熟悉民俗” 的筛选标准,涵盖不同年龄、职业、教育背景群体
语料类型设计:
基础语料:2000 个常用单字、5000 条核心词语、1000 个典型句子(含语法例句)
口语语料:10 小时自然会话(日常交流、民俗活动描述、地方历史讲述)
特色语料:50 首闽南童谣、100 条谚语俗语、20 篇民间故事、10 段民俗礼仪解说(如博饼、祭祖先)
录制规范:采用 48kHz/24bit 无损音频录制,同步拍摄视频,记录发音人口型与表情
(2) 数据库架构设计与开发
数据分类体系:按 “语音资源 - 词汇资源 - 语法资源 - 民俗资源 - 文化资源” 五大模块分类
存储格式标准:音频(WAV 格式)、文本(TXT/XML 格式)、标注(XML 标注文件)、视频(MP4 格式)
核心功能开发:
检索功能:支持按拼音、国际音标、方言词汇、语法特征多维度检索
展示功能:音频在线播放、文本对照显示、标注信息分层查看
管理功能:语料更新、权限设置、数据备份与维护
系统兼容性:适配电脑端与移动端,支持在线访问与离线下载
(3) 语料标准化标注体系构建
语音标注:标注声母、韵母、声调、变调、轻声等语音特征
词汇标注:标注词义、词性、使用场景、与普通话对应关系
语法标注:标注句子成分、特殊句式、虚词用法等语法特征
文化标注:标注民俗语料的文化背景、使用场合、历史渊源
(4) 数据库应用与推广机制研究
学术应用:为方言学、历史学、文化学研究提供语料查询与分析工具
教育应用:开发中小学方言校本教材、方言学习 APP 配套资源
文化应用:为同安地方文化宣传、文创产品开发、民俗活动传承提供素材
共享机制:构建 “高校 - 政府 - 社区” 三方共享平台,设置开放权限与保密规则
五、研究创新点
理论创新:
构建 “方言 - 文化 - 数字化” 三位一体的语言资源保护理论框架,突破单纯语料存储的局限
提出 “区域方言有声数据库建设标准体系”,为同类方言数据库建设提供理论参考
方法创新:
制定适配同安方言特色的 “分层分类 + 标准化” 采集方法,确保语料的代表性与规范性
研发 “语音 - 文本 - 标注 - 文化” 四维关联的数据库架构,实现语料多维度关联查询
实践创新:
首次系统收录同安方言完整语料(含基础语料与特色民俗语料),填补区域语言资源空白
构建 “采集 - 标注 - 应用” 闭环机制,开发多场景应用功能,提升数据库实用性与可持续性
六、研究意义
1. 学术价值
系统保存同安方言有声资源,为闽南方言研究、汉语方言史研究提供珍贵一手语料
建立的标准化采集与标注体系,丰富语言资源数字化保护的方法论
为福建省语言资源库建设提供示范样本,推动区域语言资源保护规范化发展
2. 实践价值
为同安方言活态传承提供数字化载体,助力闽南文化生态保护试验区建设
开发的多场景应用资源,为方言教学、文化宣传、地方治理提供支撑
提升公众方言保护意识,推动形成 “政府主导、高校支撑、社区参与” 的方言保护格局
为两岸闽南语资源共享与文化交流提供基础数据平台
七、预期成果
学术成果:
在《方言》《语言科学》等核心期刊发表论文 2 篇,主题涵盖方言数据库建设标准、同安方言语音特征
撰写《福建省语言资源有声数据库(同安库)建设研究报告》(约 5 万字),提交福建省教育厅、国家语委
制定《同安方言有声语料采集与标注规范》(地方标准建议稿)
实践成果:
建成 “福建省语言资源有声数据库(同安库)”,收录音频语料 50 小时、文本语料 30 万字、视频语料 10 小时
开发数据库管理系统(含检索、展示、管理功能),支持在线访问
编制《同安方言常用词汇汇编》《同安闽南童谣精选》2 部配套资料
传播成果:
举办同安方言数据库成果发布会,邀请高校、政府、社区代表参与
制作数据库使用教程短视频(3 集),通过新媒体平台推广
开展 “方言保护进校园” 活动,推广数据库教育应用资源
八、总结
本课题立足同安方言保护的现实需求与数字化发展趋势,通过标准化采集、规范化标注、系统化构建,建成兼具学术性与实用性的同安方言有声数据库。研究不仅填补了区域语言资源数字化保护的空白,为闽南方言传承提供了坚实载体,更形成了可复制、可推广的方言数据库建设模式,为福建省乃至全国同类项目提供了示范经验。数据库的建成与应用,将有效推动同安方言的活态传承与闽南文化的创新传播,为两岸闽南语文化交流搭建重要的资源平台。
