大模型里的国家队,中国电信为何要做方言语音大模型?
来源:数智前线
中国电信在方言语音大模型上的布局,既有践行市场导向,提高生产力和服务水平的业务考量,也有作为央企的社会责任担当。
文|游勇
编|周路平
OpenAI不久前发布的GPT-4o大模型,再一次让人们看到了人工智能的强大。它在极低时延、极度拟人化方面展现出了极其丝滑的效果。之前大家的目光更多在图文和视频领域,如今随着大模型在语音上的突破,业内看到了大模型在语音识别和交互上的更多可能。
国内语音大模型也卷出了新高度。近日,中国电信人工智能研究院(TeleAI)也公布了语音大模型领域的进展,正式对外发布星辰超多方言语音识别大模型。这是业内首个支持30种方言自由混说的语音识别大模型,也是目前国内支持最多方言的语音识别大模型。
在大家都在卷语义大模型时,为何电信要在语音大模型上发力,而且还是难度更高的方言赛道?中国电信的解题思路和过往的语音识别方案有何不同?另外,作为为数不多在基础大模型上发力的央企,电信在大模型上的进展和布局也引人关注。
01
方言的魅力和窘境
“尼和,岑咱”,“几哟嗯几尼要早刺湖列与发”。
这两句话恐怕很少人知道是什么意思。这是两句温州话,翻译成普通话是“你好,请进”,“端午节你有去看划龙舟吗?”。
多年前,网友曾投票选出了最难懂的四大方言,居首的就是温州话,当然还包括闽南语、粤语、客家话。
虽然有些方言难懂难学,但方言作为一种独特的民族文化,它传承千年,有着丰厚的文化底蕴。语言学家刘半农曾说,方言是地域的神味。
灿烂多彩的方言背后蕴藏着独特的文化韵味,比如吴语柔软细腻、关中方言质朴厚重、四川方言幽默诙谐、粤语古雅潇洒。有人形容,普通话是一杯水,方言像母亲煲的一碗汤。
但一个很尴尬的现实是,全球各地不少语言正在面临消亡的困境。此前联合国教科文组织的调查数据显示,“大约平均两周就会有一种语言消亡”,世界上现存约6700种语言,其中约40%的语言濒临消亡。
在我国,这样的情况同样不容乐观。我国拥有五大语系130多种语言,但其中有68种使用人口在万人以下,保护语言的多样性已经迫在眉睫。
除了保护方言本身,还有一个很重要的课题是,如何更好地让说方言的群体也能便捷地与外界沟通,让他们享受科技普惠带来的便利,缩小数字鸿沟。
早在上世纪70年代,中科院声学所就开始了计算机语音识别。随着深度学习用于语音识别声学模型训练,普通话的语音识别已经非常成熟,近场中文普通话的识别率能达到98%以上,已接近人类水平。如今的普通话水平考试,基本可以用系统评判,无需依赖人工。
但方言的语音识别面临更多的挑战。一是方言差异性太大,十里不同音,即便是同一种方言,不同地区之间可能也面临听不懂的尴尬,甚至很多方言没有对应的文字。
比如普通话由21个声母和39个韵母组成,而上海方言则包含了34个声母和54个韵母。客家话有声母19个,韵母74,声调6个;粤语综合音声母20个,韵母50个,声调9个。声母和韵母越多,能够组合的范围更广,识别的难度也更大。
二是很多方言,用母语发音的人太少,导致高质量的方言数据集比较匮乏,对大模型的训练带来了不小的难题。
尽管普通话的普及率已经超过了80%,但依然有约20%的人在日常使用方言交流,尤其在不少“老少边穷”地区以及老年人群体中,这样的习惯更为明显。
无论是出于对方言多样性的保护,还是帮助说方言的群体更好地融入当下数智化的社会,AI等技术手段的使用已经变得愈加迫切。
02
方言语音大模型是如何炼成的?
语音识别已经在很多场景中被广泛使用,比如中英文翻译在各类语音助手、会议软件里帮助人们满足商务洽谈、出境旅行的需要。
但方言的语音识别被关注的不多,背后有一些主客观的因素。如今,随着人工智能的新范式演进,大模型开始被用于方言语音的识别和处理,不过相比于其他的语音大模型,方言语音大模型的训练有两大难题:一是数据,二是算法。
数据作为训练大模型的养料,在很大程度上决定了大模型本身的性能。而高质量的方言语音数据又是一直处于匮乏状态。
一位业内人士曾表示,从大量语音中提取方言数据是很大的一个挑战,比如从10000小时的语音数据中要找出100小时的方言犹如大海捞针。
造成方言语料数据偏少,一个很重要的原因是各地方言常以口语形式流传,缺乏对应文字,难以收集。而传统的方言研究依赖于调查者主观感知标注,工程量巨大且难以系统标注。
除了数据的匮乏,在算法层面也面临挑战。传统的语音识别算法方案,各任务彼此独立,而且对不同语言进行单独建模。当这种方言的标注数据量足够多,比如达到十万小时,单方言独立建模的效果出色。但针对不同场景单独建模,不仅成本更高、工作量更大,更关键的是,模型的泛化性很差。
而现在的问题就在于很多方言语音的数据量不足,除了主要的几个方言,其他的很难单独建模。如果不利用其他方言数据中的共有信息而单独训练这个方言模型的效果不尽人意。
中国电信采用的是多任务、多语言联合建模方式,通过自监督学习(SSL),让模型在无标注的情况下直接学习音频底层结构信息,其隐层表征可作为音频特征的替代,更为有效地训练各下游任务。
结合表征离散化方法,让模型在保留语音中任务相关信息的同时,去除掉其余不相关信息,从而达到降低语音推理传输比特率、减少内存使用、提升训练效率的目的,同时也为语音多任务(如ASR、TTS、说话人识别等)统一模型构建、多模态模型建模、说话人隐私保护等方向提供可能的解决方案。
而联合建模的方式,使得模型学习到了各个方言之间的共性,降低了对新方言标注数据的需求。根据中国电信人工智能研究院的实验显示,有标注数据需求量降低到了1%。
例如用普通话来作为其他方言的基底得到通用的预训练模型,在此基础上叠加少量的方言数据进行模型训练。同时,也会考虑语言的近似性,比如贵州和四川在地理位置上接近,语言的近似性较高。在方言数据样本低资源下,可以进行联合学习,从而降低模型的识别难度。
而且,中国电信的做法在模型部署上也更有优势,不用根据地域、省份等信息调用不同的模型服务,有效降低部署成本。
不久前,基于超多方言语音识别大模型积累的算法,中国电信人工智能研究院研发团队获得了INTERSPEECH 2024 离散语音单元建模挑战赛中语音识别赛道的第一名。
模型算法之外,方言数据则是中国电信的独特优势。作为头部运营商,电信每天都会接到高达几百万通的客服电话,而且很大比例是方言和方言口音较重的普通话。同时,电信的线下门店覆盖了全国,很多门店工作人员都是当地懂方言人群,这是其他企业所难以比拟的优势,发达的毛细血管给方言数据的采集提供了便利。
而这次方言语音大模型的训练就用到了中国电信人工智能研究院构建的超30种、超30万小时的高质量方言数据库。
也就是说,通过算法上的优化,星辰方言语音大模型降低了对高质量数据的依赖,同时中国电信在方言数据上的储备,也让模型训练取得了更好的效果。
如今,星辰超多方言语音识别大模型已经实现了30种方言的自由混说,中国电信下一步将会持续扩展方言种类,争取覆盖全国333个地市和主要少数民族语言。另外,建模任务也会不断丰富,中国电信希望能通过一个语音理解通用大模型,实现多语言/多方言语音识别、跨语言语音翻译、语种识别、情感识别等多个任务。
不过,有一个好的模型并不能形成完整的商业闭环。事实上,百模大战的当下,很多大模型还处于拿着锤子找钉子的尴尬阶段,对应用场景的探索是大模型厂商今年的重要工作。而中国电信的优势是,有了大模型这个锤子,也有大量的业务场景这些钉子。
目前,星辰语音大模型已在福建、江西、广西、北京、内蒙等地的中国电信万号智能客服系统试点应用,实现日均处理约200万通电话;而智能客服翼声平台也接入星辰大模型的语音理解和分析能力,实现每天处理125万通客服电话。庞大的业务系统,成了星辰方言语音大模型最好的练兵场。
除了电信内部的客服系统,星辰语音大模型开始赋能了多地的12345等政务服务平台,让每个客服人员秒懂30种方言。
而数字人也是语音大模型天然适配的场景。2023年6月,中国电信打造了超写实数字人“数数”,数数当时与主持人康辉同台,实现了自然流畅的对话,中英文随意切换,广受好评。随着方言大模型的发布,这将意味着,数字人不仅能模拟不同的角色,甚至可以用方言直接与用户对话,拉近与用户的距离,效果更加逼真。
不难发现,中国电信在方言语音大模型上的布局,既有作为央企践行社会责任的使命,比如更好地保护方言和传承文化,比如帮助那些容易被忽视的群体享受AI成果;也有提高生产力和服务水平的业务考量,方言语音大模型通过与真实的业务场景结合,正在智能客服、数字人等场景上给用户带来更好的服务体验。
03
大模型里的国家队
把中国语音大模型带上了新高度
自从ChatGPT爆火之后,人工智能已经成为了最大的共识。但另一个共识是,尽管现在涌现出成百上千个大模型,但并非所有企业都有必要或者有能力去研发基础的通用大模型,做行业大模型被认为是更切实际的路线。
事实上,央企作为国家队,大多也没有去自研基础大模型,而是侧重于行业大模型的应用。但拥有算力优势和人才储备的运营商,是大模型赛道上非常活跃的角色。
比如中国联通发布了“鸿湖”大模型、中国移动推出了“九天”大模型、中国电科推出了“小可”大模型,一批央企大模型纷纷涌现。
中国电信无疑是央企队伍中的佼佼者。2023年,中国电信人工智能研究院发布了首个千亿参数星辰语义大模型“TeleChat”,成为最早布局大模型的央企之一并集中人才优势和资源优势全力攻坚人工智能技术,决心很大。
据悉,这个团队由中国电信CTO、人工智能研究院院长李学龙教授带队,有着近800人的研发人员,大多来自国内外顶尖高校。
目前,中国电信在大模型上形成了“1+1+1+M+N”的大模型布局,包括1个智算云底座、1个通用大模型底座、1个数据底座、M个内部大模型、N个行业大模型。而且,中国电信的各大模型已经走上了全面开源的路线。其中,TeleChat的7B和12B及52B语义大模型已经开源,预计年内开源千亿级参数大模型。
从这个布局中不难看出,电信的大模型产品既有基础模型,也有行业模型和应用模型,而且大模型种类也非常全面,覆盖了语义、语音、视觉、多模态等多个方向。
另外,除了自研的品类丰富的大模型,中国电信已经联合头部生态伙伴构建了涵盖教育、政务、应急等20多个行业大模型,覆盖全行业500多个应用场景。
而在这些大模型成果的背后,中国电信的大模型也已经围绕算力、算法和数据等三大要素沉淀了自己的优势。
算力资源是运营商最显性的优势。中国电信作为国内最早进入云计算领域的运营商,旗下天翼云这几年增速迅猛,积累了大量算力建设和算力调度的核心技术,已经构建了“中心-省-边缘-端”的四级算力体系,并陆续投产了京津冀智算中心、中南智算中心等多个满足大模型训练的公共智算中心。丰富的网络和算力资源,将让中国电信的大模型在训练、精调和推理时拥有相对更低的成本。
在算法方面,以语音大模型为例,中国电信首创了“蒸馏+膨胀”联合训练算法,解决超大规模多场景数据集和大规模参数条件下,预训练坍缩的问题,实现80层模型稳定训练;星辰语音大模型也是业内首个开源的基于离散语音表征的语音识别大模型,通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率降低数十倍。
在数据方面,除了上述在方言语音数据上的积累,中国电信已经积累了超过500TB文本数据、12亿张图文数据和PB级视频数据,用于大模型训练。不仅包括了通用数据,也有自身业务积累的大量数据。比如方言语音大模型就用到了客服场景的数据。
作为一家用户和业务数量庞大的央企,中国电信有自身的使命。同时,在大模型上的布局和落地也有着很多大模型厂商所无法比拟的优势。
ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具