-
Notifications
You must be signed in to change notification settings - Fork 1.9k
Description
粤语,又称广东话、广府话、白话。历史比较悠久,粤语是南方方言里面保留中古汉语成分较多的一种。其中最突出的特色就是它较为完整地保留了中古汉语普遍存在的入声,其声母、韵母、声调与古汉语标准韵书《广韵》高度吻合。国学大师南怀谨先生认为粤语是唐代国语。
据说,1911年中华民国成立后,首届国会中有人提议奉广州话为国语;当时来自广东的国会议员刚好过半数,通过这一法案似乎不成问题。不过,身为广东人的临时大总统孙中山为了顾全革命大局,劝说粤籍议员放弃以粤语为国语。结果,北京话以一票之差压倒广州话成为国语。
粤语目前主要分布于广东、 广西、 香港和澳门。
两省区的粤语分为广府、 四邑、 高阳、 勾漏、 吴化、 琶得、 钦廉 7 片。
片区 | 特点 |
---|---|
广府 | 是粤语中最具影响、使用人数最多的一片方言, 主要分布于广东珠江三角洲一带, 及广西西江流域上游的部分地区。还有香港、 澳门两个地区,大部分海外粤语区。 |
四邑 | 主要分布于广东潭江流域的一些地方。 |
高阳 | 主要分布于粤西南。 |
吴化 | 主要集中于茂名西南、 湛江以东的海湾地带。 |
勾漏 | 主要分布于广东西部的清远、 肇庆两市所辖的部分地 区及广西东部地带。 |
琶得 | 广西壮族自治区的中西部与北部的大多数地区。 |
钦廉 | 广西壮族自治区东南隅。 |
广州(广府)话是粤方言区最有 代表性的方言,当然也是大湾区最有代表性的方言,以至于一般人经常把广州话跟粤方言,甚至跟广东话混为一谈。有分城内音(东山口音)、西关口音等等。虽然西关口音被视为标准广州话口音,但现在依《广州音字典》所收字音来看,并没有专门视西关口音为主收对象,而是以当前珠三角广府人通用口音为标准。
港澳地区与广州粤语的区别(Ref)
总的来说差别不大。有些差异只表现在“使用频率”上,有些则表现在“年龄层次”上,如一些香港人使用的外语借词,广州的中老年人可能听不懂,年轻 人则能听懂一部分或接近全能听懂,而一些香港人现仍使用的‘旧词’,广州的老年人则可能比年轻 人较能理解一些。
- 腔调的区别:由于香港人成份复杂,移民众多,由此产生不少变化。比如,懒音很重,经常前后鼻音、l和n不分,声调比较高,听起来自带温柔的调性,最适合用来唱情深款款的情歌,这也是为什么香港流行歌的传唱度会特别高。
- 部分字发音不同:上世纪70年代,香港的官方语言定为“广州粤语”,表示要有西关口音。然而在当时,香港中文大学的何文汇教授反对这一点,他认为标准粤语应该按照北宋初年的《广韵》的音。于是,在香港出现了两大流派,一是以广州话为代表的现代粤语,另一派便是遵循古籍的复古粤语。
粤语拼音
粤语没有统一的拼音方案,甚至不同的粤语字典的拼音也会不同,现今最常用的是1993香港语言学学会粤语拼音方案,简称粤拼(英文:Jyutping)。(Ref,Ref)
关于九声六调:
阴平、阴上、阴去、阳平、阳上、阳去、阴入、中入、阳入
一般而言只有六调,即六种不同调值的发音(第一声到第六声)。前三种为阴,较为高,后三种为阳,较为低沉
而九声,就是另外三个入声(ptk结尾,只做口型不发音)。相同点:音高相同;不同点:顿挫性(短促版本的发音,听上去就比较有顿挫感)。所以加上顿挫性的差异就有九声了。
第7声调约等于粤语发音第1声调
第8声调约等于粤语发音第3声调
第9声调约等于粤语发音第6声调
为什么会有这种差异:1)语音学上说,只要调值一致就是同一声调,不考虑其他因素;2)汉语语音学上说,声调的意义包含了抑扬和顿挫,抑扬就是音高和调值,而顿挫就是舒音和促声。
note:ptk本身就带有调值属性,所以后面的数字也可以不用写
所以具体含义是,九种声调,六种音高。
数据集
时长 | 人数 | 句子 | 话题 | 录制环境 | 格式 | 文本 | |
---|---|---|---|---|---|---|---|
https://magichub.com/datasets/guangzhou-cantonese-conversational-speech-corpus/ | 4.25h | 20 | 10 (需要切分) |
日常 | 手机 | wav | 粤语字 |
https://magichub.com/datasets/guangzhou-cantonese-scripted-speech-corpus-daily-use-sentence/ | 4.06 | 10 | 4,060 | 日常 | 手机 | wav | 粤语字和普通话字 |
https://magichub.com/datasets/guangzhou-cantonese-scripted-speech-corpus-in-the-vehicle/ | 5 | 10 | 6,219 | 数字, 命令, 询问 |
麦克风(车里 | wav | 粤语字 |
https://github.com/hltchkust/cantonese-asr https://storage.googleapis.com/samcah-bucket/cantonese-asr/cantonese_dataset.zip | 73.6 | 83,275 | philosophy, politics, education, culture, lifestyle, family | fbank, npy(参数未知 | |||
https://github.com/gwinterstein/CantoMap | 12.48 | 40 | 地图 | ||||
Common Voice 11版 | 106 | 2943 | 日常 |
工具
- 粤拼输入法:
- 分词:
- 一些粤语词典:
- https://github.com/Gahory/Mandarin2Cantonese/tree/main/resources
- https://github.com/mirfan899/CTTS/blob/master/misc/cantonese_mtts.lexicon
- https://github.com/soon14/cantoneseTTS/tree/master/src/cantoneseTTS
- G2P:
-
https://github.com/imdreamrunner/python-jyutping 用法简单,多音字有歧义
-
https://github.com/jacksonllee/pycantonese 大而全,但g2p时会带有分词功能,需要后续进一步处理
-
https://github.com/CanCLID/ToJyutping 用法简单,支持多音字
Metadata
Metadata
Assignees
Labels
Type
Projects
Status