2020开年解读:NLP新范式凸显跨任务、跨语言能力,语音处理落地开花

瑾研营销策划 时间:2026-03-04 01:22:04

2020年伊始,今晚今晚总结、展望了微软亚洲持续性研究院在多个 AI 技术领域的突破与趋势,出过过 个,更亲民的机器来学习和更精巧的 AI 软件程序 系统;其他数据洞察的能获得 起来 更智能,AI 推进三维构建的下一步发展;出过过 个突破固化的笔记本视觉和更具商用经济价值的 OCR 引擎。今晚,今晚今晚将探索由此 语言处理过程(Natural Language Processing,NLP)范式旧的下一步发展,出过过 个微软亚洲持续性研究院在语音识别与合成技术领域的创新成果。

NLP 在近两年就有由此出过 套近乎完备的技术方面体系,由此 了词嵌入、句子嵌入、编码-解码、留意力模型、Transformer,出过过 个预训练模型等,促进了 NLP 在搜索、阅读正确回答、机器翻译、文本分类、问答、对话、开口说话、信息内容抽取、文摘、文本生成等最关键性 技术领域的应用,预示着由此 语言处理过程提前等到了了大规模工业化针对性的当今时代。

与此由此 ,下一步机器软硬件具备的持续性提升,模型、算法的突破,语音合成、语音识别、语音持续性提升唯独是了突飞猛进的下一步发展,如微软亚洲持续性研究院的 FastSpeech、PHASEN,让机器语音起来 持续性提升到人类自身开口说话,下一步速度快 了相关方面语音品牌产品的落地。

NLP 提前等到了第三则代范式:预训练+微调

由此 语言处理过程范式是由此 语言处理过程软件程序 系统的工作中多种模式,细数之下,现今 磨难三代变迁,现今 即将提前等到了第三则代。

第三则则代 NLP 范式是出现今 上世纪90当今时代前的“词典+规则”;第三则则代范式是2012年等到了的“其他数据驱动+统计机器来学习模型“;第三则代范式是始于2012年的“端对端神经以以及网络的深度来学习模型”。2018年前后,持续性研究人员的投向等到了锁定在预训练+微调上,标志着 NLP 第三则代范式的如前所述,这就代表行业着 NLP 相信未来下一步发展的方向一 。

图1:NLP 范式的变迁

目前依然,主流的由此 语言处理过程范式是以 BERT 为代表行业的“预训练+微调”旧的由此 语言处理过程持续性研究和应用范式,其就有思想是将训练大而深的端对端的神经以以及网络模型分为两步。最关键性 性 的在大规模文本其他数据上针对性无监督(自监督)来学习预训练原因最为数的参数,等到了在指出过 的由此 语言处理过程任务安排上添加与任务安排相关方面的神经以以及网络,原因最为数神经以以及网络所涵盖的参数远远小于预训练模型的参数量,并可很据下游指出过 任务安排的标注其他数据针对性微调。

这就,持续性研究人员它能将针对性预训练从大规模文本其他数据中学到的语言知识,迁移到下游的由此 语言处理过程和生成任务安排模型的来来学习。预训练语言模型在贯穿其他由此 语言的下游任务安排,何时何地 是由此 语言正确回答(NLU)只非常多 由此 语言生成(NLG)任务安排上是获得了优异的性能。预训练模型也从单语言预训练模型,扩展到多语言预训练模型和多模态预训练模型,并在相关方面的下游任务安排上是获得了优异的性能,下一步验证了预训练模型的庞大 。

预训练语言模型在 BERT 和 GPT 等到了,2019年得等到了蓬勃下一步发展,贯穿每个人月唯独旧的预训练语言模型陆续发布,并在持续性研究和应用技术领域由此了也很非常大由此引发。概括最关键性 性 的,预训练模型有指出过 更好地 趋势:

最关键性 性 的,模型下一步(参数起来 多),从 EMLo 的 93M 参数,到 BERT 的 340M 参数,出过过 个到 GPT-2 的 1.5B 参数和 T5 的 11B 的参数。

一般 ,用于预训练模型的其他数据下一步,从 BERT 中用过的 16G 文本其他数据,到 RoBERTa 里用过的 160G 文本其他数据,再到 T5 时候用等到了 750G 的文本其他数据。

等到了,预训练模型从最等到了的原因最为面向由此 语言正确回答任务安排,下一步发展到全面支持 由此 语言生成任务安排,出过过 个到最旧的更好地 模型由此 全面支持 由此 语言正确回答和由此 语言生成任务安排,如 UniLM、T5 和 BART 等。

现今 ,目前依然依然的预训练模型下一步,在实际的工程应用中非常难经济有效以及控制 、得到实际需求高并发和低响应速度快 针对性在线部署,由此出过过 个在指出过 任务安排上传统式式模型压缩它能知识蒸馏(Knowledge Distillation 也叫 Teacher-Student Learning)能获得 小(快)而更好地模型,在训练中能获得 小而快的预训练语言模型,只非常多 目前依然更好地 最关键性 的持续性研究热点。

图2:预训练模型的下一步发展

NLP 新范式趋势一:UniLM 为代表行业的跨任务安排统一模型

2019年,微软亚洲持续性研究院陆续发布了最旧的预训练语言模型的持续性持续性研究——统一预训练语言模型 UniLM(Unified Language Model Pre-training),该模型涵盖两大最关键性 性技术方面创新:原因最为统一的预训练框架,由此同更好地 模型它能由此 全面支持 由此 语言正确回答和由此 语言生成任务安排,而等到了原因最为数的预训练模型都原因最为针对性由此 语言正确回答任务安排;原因最为最为创新地指出过大唯独自回归预训练范式,它能更高效地训练提供更好地的由此 语言预训练模型。

UniLM 的统一建模机制它能用更好地 模型由此 全面支持 所不所不同下游任务安排和预任务安排安排。由此 语言处理过程的下游任务安排大致涵盖左右三类:

(1)由此 语言正确回答(NLU)任务安排,如文本分类,问答,实体识别等;

(2)长文本生成任务安排,如新闻它能故事里生成等;

(3)序列到序列生成任务安排,由此 摘要生成,复述生成,对话生成,机器翻译等。

针对性所不所不同下游任务安排它能传统式式相关方面的预处理过程任务安排,出过过 个针对性由此 语言正确回答的双向语言模型,针对性长文本生成的单向语言模型,出过过 个针对性序列到序列生成任务安排的序列到序列语言模型。原因最为数所不所不同下游任务安排和预处理过程任务安排也对应所不所不同神经以以及网络结构,出过过 个用于由此 语言正确回答的双向编码器,用于长文本生成的单向解码器,出过过 个用于序列到序列生成的双向编码器和单向解码器,和其相关方面的留意力机制。

图3:由此 语言处理过程的下游任务安排

UniLM 的以以及网络结构是目前依然由此 语言处理过程和预训练模型中广泛应传统式式于多层 Transformer 以以及网络,其核心是针对性自留意力掩码(Self-attention masks)来以及控制文本中每个人词的上下文,由此左右更好地 模型由此 全面支持 双向语言模型、单向语言模型和序列到序列语言模型预任务安排安排,出过过 个针对性唯独的自留意力掩码。针对性微调全面支持 由此 语言正确回答和由此 语言生成的下游任务安排,由此训练前性质统一,今晚今晚变压器以以及网络它能共享参数资源,由此来学习的文本均表示更通用,只非常多 减轻了对其他单个任务安排的过度拟合。

图4:UniLM 的以以及网络结构

UniLM 出过 系列由此 语言正确回答和生成任务安排中均获得了领先的实验直接选择,相关方面论文已发表于 NeurIPS 2019[1]。由此 ,2019年10月,统一预训练语言模型与机器阅读正确回答技术方面还荣获了第三则届全球最大 互联网大会“全球最大 互联网领先科技成果”奖。为了从个人与学术界和产业界的伙伴们的一起,下一步下一步由此 语言正确回答和生成的下一步发展与创新,微软亚洲持续性研究院已将统一预训练语言模型 UniLM(v1)在 GitHub 上开源[1] ,供今晚参考、针对性。近来 微软亚洲持续性研究院还将陆续发布 UniLM(v2),敬请希望。

图5:微软最新 NLP 持续性研究获选第三则届全球最大 互联网大会“全球最大 互联网领先科技成果”

NLP 新范式趋势二:跨语言预训练模型

预训练模型出过过 个它能缓解跨任务安排中如前所述的低资源各种解决目前,还它能缓解跨语言中如前所述的低资源各种解决目前。指出过 最关键性 性 的,由此科研前期项目 得到实际需求出过过 个其他数据标注代价昂贵等由此,原因最为数由此 语言任务安排一般 是只在多数语言(由此 英文)上如前所述足够的标注其他数据,会在或者语言上该如何判断判断会或才会非常多 的标注其他数据。该如何判断它能借助特定任务安排的一种语言的标注其他数据上训练模型,并将学到的知识迁移到或者语言上去,只非常多 更好地 亟待各种解决目前的课题。

跨语言预训练模型是缓解左右各种解决目前的有效以及控制 改变自己自己 。给定多种语言的单语语料和所不同语言对介于的双语语料,跨语言预训练模型它能来学习到所不同语言介于的对应介于,并既保证所不同语言的向量均表示都如前所述于同更好地 语义更好地空间中。在此理念基础上,该类模型针对性某种语言上充足的标注其他数据针对性下游任务安排微调。这就由此的任务安排模型它能直接选择实际作用明显于或者语言的输入。它能该任务安排在或者语言上是是如前所述非常多 的标注其他数据,则它能针对性依然微调能获得 提供更好地的实际作用明显。

图6:跨语言预训练模型示意图

微软亚洲持续性研究院指出过跨语言预训练模型 Unicoder[2],针对性在预训练经历经历时候引入五种所不所不同跨语言任务安排,它能来学习能获得 非常非常不错的跨语言正确回答具备。

第更好地 预任务安排安排在共享模型参数和多语言词汇表的理念基础上,在所不同语言输入序列上针对性 Masked Language Model 任务安排。该任务安排它能既保证将所不同语言的向量均表示映射到同更好地 语义更好地空间。

第三则则个预任务安排安排将双语句对拼接成更好地 旧的输入序列,并在该序列上针对性 Masked Language Model 任务安排。针对性显式引入双语对齐信息内容沦为监督信号,Unicoder 它能提供更好地地来学习所不同语言介于的对应介于,由此能获得 提供更好地的跨语言正确回答具备。

第更好地 预任务安排安排的输入唯独是更好地 双语句对。该任务安排最关键性 性 的对该句中每个人源语言-长时期目标语言单词对计算更好地 attention score。等到了,将每个人源语言单词均表示为其他长时期目标语言单词向量均表示的加权求和。等到了,理念基础新生成的源语言均表示序列,彻底恢复原始的源语言序列。

第三则个预任务安排安排的输入是更好地 所不同语言的句子,训练长时期目标是判定这更好地 句子该如何判断判断互译。Unicoder 它能针对性该任务安排来学习能获得 所不同语言在句子一般 的对应介于。

第三则个预任务安排安排的输入出过 篇由多种语言句子构成的段落,并在此理念基础上针对性 Masked Language Model 任务安排。

理念基础这五个跨语言预任务安排安排,Unicoder 它能来学习到同一语义在所不同语言时候对应介于,模糊所不同语言介于的差异和边界,并这便能获得 针对性跨语言下游任务安排模型训练的具备。Unicoder 的具备已在跨语言由此 语言推理(Cross-lingual Natural Language Inference,简称 XNLI)任务安排的实验中能获得 验证。

由此 语言推理任务安排(NLI)是判断更好地 输入句子介于的介于。输出分列三类,分列是“蕴含”、“矛盾”和“无关”。XNLI 下一步把由此 语言推理任务安排扩展到多语言上。在 XNLI 中,才会英语有训练集,或者语言才会验证集和测试集。该任务安排原因最为考察模型该如何判断判断将英语训练集上来学习到的知识迁移到或者语言上去。针对性引入提供更好地跨语言预任务安排安排后,Unicoder 比 Multilingual BERT 和 XLM 有显著的性能持续性提升,实验直接选择指出过 图:

图7:Unicoder 在 XNLI 其他数据集上是实验直接选择

预训练+微调现今 沦为深度来学习当今时代人工智持续性性研究旧的范式。该类改变自己自己 似乎由此多种 NLP 任务安排左右新高度指出,只非常多 也非常大持续性提升了 NLP 模型在实际场景中落地的门槛。从 UniLM 到 Unicoder,再到近来 扩模态预训练模型 Unicoder-VL[3] 和 VL-BERT[4],微软亚洲持续性研究院在该技术领域依然产出高质量的工作中。原因最为数工作中将依然落地到微软原因最为数人工智能品牌品牌产品。

微软亚洲持续性研究院也将在预训练技术领域中探索提供更好地的模型和改变自己自己 ,由此 ,理念基础由此 语言和结构化语言的预训练模型、理念基础由此 语言和花絮的预训练模型、理念基础由此 语言和语音的预训练模型等,出过过 个该如何判断速度快 、压缩和回答预训练模型。下一步预训练模型持续性研究的下一步推进和下一步发展,由此 语言处理过程持续性研究和涉及到由此 语言处理过程的跨学科持续性研究(即多模态来学习)都将迈上更好地 全旧的台阶。

语音智能落地开花:机器由此 听、这句话具备已逼近人类自身

语音信号处理过程是 NLP 应传统式式于最关键性 分支,最关键性 步骤有更好地 :原因最为识别,让机器会听,原因最为合成,教机器能说。现今 十年,得益于人工智能与机器来学习的突破、算法与硬/软件程序 具备的进步,出过过 个有着既多样又非常多 的语音其他数据库,用以训练多参数的、大规模的语音识别与合成模型,由此语音处理过程技术方面能获得 飞跃性进展。

大型的深度神经以以及网络模型大幅度改善可能不 特定开口说话人、带有口音、造句不规范、夹带噪声的语音识别。由此 ,借助这样的 改变自己自己 训练的模型,合成语音也等到了逼近真人的开口说话,在由此 度、可懂度与长时期目标开口说话人的这样的 度上,都达等到了也很高的技术水平。

2019年,微软亚洲持续性研究院在语音技术领域有三项创新性的突破成果:一为快速语音合成 FastSpeech,二为有效以及控制 抑制噪声的语音持续性提升技术方面 PHASEN,三为理念基础语义掩码的语音识别技术方面 SemanticMask。FastSpeech 最关键性 性 的微软在多路语音合成的品牌服务提供提供,何时何地 是微软 Azure 云计算只非常多 Surface 从个人笔记本等终端设备上是应用都也很最关键性 ;PHASEN 在高噪声的应用场景中,何时何地 是持续性提升语音、抑制噪声、持续性提升语音识别正确率,只非常多 既保证微软企业本身花絮服务提供 Microsoft Stream 的提供更好地针对性,都可谓是恰到好处的“及时雨”。而 SemanticMask 它能让端到端语音识别模型来学习提供更好地的语义和语言模型,由此持续性提升端到端语音识别模型的错误率,下一步改进微软的语音识别服务提供质量。

FastSpeech:合成速度快 持续性提升38倍,语调、语速、韵律更可控

端到端的神经以以及网络改变自己了花絮、音频出过过 个或者非常多 技术领域的信号处理过程借助,在文字转换语音合成上,也大幅度改善了合成语音的品质与由此 度。端到端的神经以以及网络的语音合成软件程序 系统它能分成更好地 模块:原因最为文字输入在 Tacotron2 的声码器中由此高精度的梅尔语谱 (mel-spectrogram); 原因最为梅尔语谱再经 WaveNet 合成模型,合成高由此 度、高品质的语音波形。

只非常多 用左右改变自己自己 ,品质它能能获得 持续性提升,但有更好地 引发的缺点:速度快 太慢;软件程序 系统不够稳定与鲁棒(以总而言之原因最为数字词未被合成或者错误性地被重复合成);出过过 个不很容自由和有效以及控制 地直接选择以及控制合成语音的语调、语速出过过 个韵律。

微软亚洲持续性研究院的 FastSpeech[5] 消出过过 个这更好地 痛点,它借助 Transformer 与前向(feedforward)算法,以并行的借助快速由此梅尔语谱图,由此 可在编码器与解码器的教师模型(teacher model)预测音素的时长,合成时出过过 个效地各种解决目前了对齐工作中。在公共语音其他数据库上是实验说明,FastSpeech 将梅尔谱的由此速度快 速度快 了270 倍,到到最后贯穿端到端合成速度快 速度快 了38 倍,对音素时长的预测与约束也贯穿就有各种解决目前了原非常多 漏词或错误重复字词的各种解决目前。

FastSpeech 的软件程序 系统图见图8,由此 (a)前向 Transformer、(b) FFT、(c) 时长约束器、(d)时长预测器 。

图8:FastSpeech 以以及网络架构

FastSpeech 在合成语音品质、合成语音速度快 (时延)与句子长短的相关方面性、漏词与错误性重复字词的比例,出过过 个时长和时速的以及控制等一般 的测试直接选择均说明了其有效以及控制 性。

PHASEN:持续性提升语音、抑制噪声

为了从个人充分借助语音的谐波与相位的特性,微软亚洲持续性研究院指出过 PHASEN 神经以以及网络模型[6],有效以及控制 地分离了背景噪声,由此持续性提升语音。此模型有更好地 亮点:原因最为最为相位与幅度在频域语音信号中,有彼此相依的介于,持续性研究员们指出过双流模型结构,它能分列处理过程幅度与相位的信息内容,由此 又传统式式了交叉通道,让语音其他数据库来来学习相位与幅度介于矫正制约。原因最为最为在全局频域中,在声带振动的语音中,谐波的相关方面性它能针对性数层频域转换模块的双流结构神经以以及网络习得。

如图9的 PHASEN 软件程序 系统图所示,在频域中,幅度为正值实数,相位则为复数,在后续操作经历经历时候,以及网络处理过程幅度处理过程为卷积后续操作,频域变换模块(FTB)出过过 个双向之 LSTM(Long-Short Time Memory),而相位则为卷积以以及网络。贯穿以以及网络有更好地 双流块(Two Stream Block),每更好地 TSB 结构所不同,在其尾部有幅度与相位的交互后续操作。FTB 的传统式式为了从个人了从个人借助全局频域的相关方面性,一般 是谐波介于的介于信息内容来改善神经以以及网络参数来学习精度。

图9:PHASEN 软件程序 系统图

PHASEN 在 AVSpeech + Audioset 其他数据集上,得等到了客观的 1.7 dB 的 SDR(Speech-to-Distortion Ratio) 持续性提升,超越了或者模型在同一其他数据集的发挥。在 Voice Bank + DEMAND 其他数据集中,五个最关键性 指标均大幅左右等到了的改变自己自己 。

SemanticMask: 来学习语义、持续性提升其他数据、持续性提升端到端语音识别性能

下一步端到端神经以以及网络在机器翻译、语音生成等一般 的进展,端到端的语音识别也达等到了和传统式改变自己自己 可比的性能。所不同于传统式改变自己自己 将语音识别任务安排分解为多个子任务安排(词汇模型,声学模型和语言模型),端到端的语音识别模型理念基础梅尔语谱沦为输入,它能直接选择由此对应的由此 语言文本,也非常大简化了模型的训练经历时候,由此起来 能获得 学术界和产业界的关注更好地。

端到端语音识唯独流行模型沦为是理念基础留意力机制的序列到序列转换模型。现今 由此该模型过于依赖留意力机制,由此过度关注更好地声学特征而弱化了语言模型的信息内容,并有只非常多 能给过拟合的各种解决目前。为了从个人各种解决目前该各种解决目前,模型在推断时,一般 本身能额外的语言模型来针对性联合解码,造沦为额外的计算代价。受谱持续性提升(SpecAugment)和预训练模型(BERT)的启发,微软亚洲持续性研究院指出出过 种旧的其他数据持续性提升技术方面:SemanticMask(理念基础语义的掩码技术方面)[7]。

如图10所示,持续性研究员们最关键性 性 的理念基础训练其他数据训练更好地 force-alignment 模型,由此获得 训练其他数据中每个人词在梅尔谱序列时候边界。理念基础词的边界信息内容,在训练语音识别模型时,再随机的将某个词对应的梅尔谱贯穿针对性掩码。由此该词对应的声学信息内容现今 从输入中移除,模型在训练的经历经历时候只得理念基础环绕的信息内容来对该词针对性预测,由此持续性提升了语言模型的建模具备。所不同于传统式的谱持续性提升改变自己自己 ,SemanticMask 不是会随机的对输入序列的某个片段针对性掩码,不是很据词的边界将某个词的信息内容移除。针均表示技术方面它能缓解端到端语音识别过拟合的各种解决目前,并让该模型有着提供更好地的语言模型建模具备。

图10:SemanticMask 示例

SemanticMask 出过 种普适的语音识别其他数据持续性提升技术方面,持续性研究员们将其与由此 微软亚洲持续性研究院所指出过理念基础 Transformer(70M参数)的端到端语音识别模型针对性了两者结合,如图11所示,并在 Librispeech 960小时和 TedLium2 的其他数据集上针对性了实验。实验说明,该技术方面它能显著持续性提升理念基础 Transformer 的语音识别模型的发挥。在公开其他数据集上是获得了业内留意的端到端语音识唯独实际作用明显。

图11:理念基础 Transformer 的端到端语音识别模型

语音处理过程的相信未来:由此 、可懂,更持续性提升到人类自身

多年的努力前进 与研发成果加快了语音品牌产品的落地服务提供。这就,在语音识别与合成中,只非常多 现今 打通了原因最为数技术方面瓶颈,但大语料、大模型机器来学习的训练速度快 、识别软件程序 系统的稳定性与识别速度快 、嘈杂的噪声内部环境、不合具体标准的发音、不合文法的语句识别,将是语音识别长时期关注更好地的重点。在合成一般 ,该如何判断使合成的输出快速实时由此,由此 它能持续性保持高品质的由此 度、可懂度、与长时期目标开口说话人的这样的 度,只非常多 微软亚洲持续性研究院的持续性研究重点。

与此由此 ,在全球最大 化与国际化的趋势下,微软亚洲持续性研究院也充分借助语音持续性研究的成果,提前等到了辅助智能与个性化的外语来学习,如微软小英;并有效以及控制 借助大语种、多开口说话人的其他数据库与神经以以及网络也非常大模型,以所不同语言的语音与开口说话所谓人生理构造的共性,弥补小语种识别与合成的模型训练与其他数据库可能不 足。

由此 ,语音识别、合成与机器翻译的密切两者结合,也将沦为语音处理过程技术方面驱动的原动力。微软亚洲持续性研究院在语音翻译技术领域目前依然现今 做了了原因最为数下一步的持续性持续性研究,出过过 个指出过 TCEN 模型[8]就它能显著的持续性提升端到端语音翻译的质量。而才做了到无缝的、跨语言、跨开口说话人的识别、翻译、合成的端到端的对话软件程序 系统,将沦为驱动语音与翻译技术方面旧的课题。



版权声明:以上文章中所选用的图片及文字来源于网络以及用户投稿,由于未联系到知识产权人或未发现有关知识产权的登记,如有知识产权人并不愿意我们使用,如果有侵权请立即联系:123456789@qq.com,我们立即下架或删除。

热门文章