欢迎来到英皇彩票官网,英皇彩票是一家生产搅拌机混凝土搅拌机厂家,品质保障,欢迎咨询!

英皇彩票平台语音识别技术发展史与行业最佳实

  在人工智能技术的探索征程里,语音语义识别技术一直扮演着先驱的角色,不管是在技术探索还是商业落地方面都走在了前面。近两年来随着深度学习技术的进一步深入,其识别准确率更是得以大大提升。为教育、客服、电信等传统行业的产业升级带来了一大助力,在车载、家居、医疗、智能硬件等领域又开辟出了新的商业应用探索实践。

  在人工智能技术的探索征程里,语音语义识别技术一直扮演着先驱的角色,不管是在技术探索还是商业落地方面都走在了前面。近两年来随着深度学习技术的进一步深入,其识别准确率更是得以大大提升。英皇彩票注册为教育、客服、电信等传统行业的产业升级带来了一大助力,在车载、家居、医疗、英皇彩票注册智能硬件等领域又开辟出了新的商业应用探索实践。

  语音语义技术目前发展到了哪个阶段?NLP技术在企业日常业务中能发挥怎样的作用?在十亿级别日活的微信端有何应用案例?在腾讯云海量客户场景下又为企业带来了怎样的助力?9月13日,TVP AI技术闭门会语音语义专题遍邀行业大咖,为行业找寻更多解题思路。

  在语音识别技术的落地过程中,微信是探索得比较深入的一个代表。现在的微信不仅可以非常方便地将语音转换为文字,甚至可以识别出语音中蕴含的情绪,在转化出的文字中用贴切的emoji表情表达情感。

  微信智聆语音技术负责人卢鲤老师向与会者介绍了语音识别技术的发展历程,他表示如果我们想更客观地判断一项技术的今天和明天,回顾其发展历程是很有必要的。

  语音识别技术的研究早在上世纪5、60年代就已经开始了,传统语音识别使用Hybrid框架,该系统具备一个明显的层次结构,包括声学模型、词典、语言模型三个部分。对传统Hybrid系统而言,声学模型是其中非常重要的部分,后续技术的诸多改进也是面向声学模型进行的。英皇彩票注册

  2009年以后,语音识别技术迎来了一次较大的发展。业界主流的观点认为这是因为语音识别技术搭上了深度学习发展的快车,卢鲤老师表示这是其中一个重要原因,但不是唯一原因。这个过程中,GPU等硬件设施的发展提供了基础,互联网尤其移动互联网的飞速发展带来更多的场景,使得语音识别技术从实验室到广泛民用市场。

  在语音识别技术的发展过程中,卢鲤老师重点介绍了DNN、TDNN、LSTM以及Transformer等模型的发展以及对性能带来的提升。从2014年以后,部分科学家开始在Hybrid系统以外尝试端到端的系统,相比前者,该系统输入语音,输出的就变成了文字。

  “语音识别技术领域没有完美的系统。Hybrid系统使用灵活,但整体拟合能力不如端到端系统;端到端系统数据整体建模能力强,但灵活度不及Hybrid系统。”

  “微信智聆平台起步于2011年底,直到2017年才给自己取了个品牌的名字。当时是觉得效果做得不好,用户想吐槽的时候也没有具体对象。”卢鲤老师开玩笑着介绍了微信智聆平台的发展史,这个腾讯自主研发的语音技术平台,截至目前已经在C端、B端、G端等多个领域落地近百个产品,日请求量超30亿。在独立第三方机构SpeechIO的测试报告中名列前茅。

  微信智聆平台是目前在大规模提供服务的厂家中处于最好的几家之一,卢鲤老师介绍了微信智聆平台在性能提升方面所做的一些工作。

  首先是TLCBLSTM网络。LSTM网络结构的主要形式有两种,一种是单向,一种是双向。一般情况下,双向LSTM性能比单向的要高出10%左右,但双向LSTM却有着无法用在流式场景下的局限。TLCBLSTM就是一种既可以把LSTM用在流式场景下,同时又能保持双向10%性能优势的解决方案。

  在LSTM以外,微信智聆平台还实现了Transformer的网络结构。目前该系统的开发正在有序进行中,卢鲤老师指出这种Transformer的结构可以有效利用运行的并行性,无损地应用在流式系统中。

  除了对网络结构的改进以外,语音识别还有一个很重要的问题就是鲁棒性。影响鲁棒性的因素一般有录音设备、英皇彩票注册环境影响、原始录音的信号处理等几类。为此,微信智聆平台通过SpecAgument技术,强迫网络学习这类糟糕的数据,增强网络适应性。另外还收集了上百种不同的噪声以及房间混响,加入到原始信号去模拟不同场景,以及利用混合频带训练等方式,加强语音识别的鲁棒性。

  最后,在系统层面,智聆平台也做了Hybrid和端到端的系统结构,同时在实验室场景下针对二者的互补性做了一些相关的测试,具体见下图。

  训练好模型、做好系统仅仅只是万里长征的第一步,卢鲤老师以智聆平台为例分享了他认为在实用中需要考虑的点。

  第一,对语音识别的前端考虑。不同的场景对体验的要求不同,对前端的配置和要求也就不尽相同,也基于此可能造成识别的损失。

  第二,在线学习之难。通用的语音识别器无法覆盖所有场景,千万条句子和关键词的在线学习对算法也有很高要求。

  第三,方言识别之难。国内方言种类多、某一类方言下的子类彼此不相通,用户到底需要什么样的方言识别也仍旧是个问题。

  分享结束后,卢鲤老师在QA环节和观众讨论区都针对用户关注的技术、细节的问题做了细致的回复,此处限于篇幅不再赘述。

  腾讯云AI语音语义与应用平台产品中心总经理周超向与会者汇报了腾讯云在AI落地过程中的实践与思考,他表示腾讯云未来将向业界提供深入各行业的全AI能力解决方案。

  根据目前业界对企业AI能力需求的调查报告显示,计算机视觉目前是最受关注的企业AI能力,紧随其后的就是智能语音技术、自然语言处理技术的份额。在对AI技术趋势发展做分类,从技术的触发期、期望膨胀期、泡沫破灭期、启蒙爬升期、再到高原期的曲线可以很清晰地看出各AI技术所处的发展位置。

  企业选择部署AI的原因,最主要的3大构成是降低成本、提升效率、创新业务。在IDC 2019年中国人工智能白皮书中显示,目前企业采纳AI后能对业务效能有优秀的提升的占比不高,AI落地企业的效果有较大的提升空间。

  今年以来,疫情影响推动了AI落地的应用,腾讯云在疫情期间协助抗疫所广泛采用的AI能力让人们看到了AI的强大。在此期间,企业营业受到极大影响,线上化、数字化的趋势在加速,在后疫情时代,出于降本增效的目的,线上线下结合的实践也会带来更多对AI能力的需求。与此同时,人工智能作为国家的新基建战略7大领域中的重要组成部分,为企业应用人工智能带来了更大的想象空间。

  腾讯云将企业部署AI面临的困境总结为两大挑战、三大问题:碎片化和场景化的挑战;行业知识的门槛、行业数据转换成AI所需语料的挑战、业务改造的成本的问题。在这样的背景之下,腾讯云希望向客户提供效果好、门槛低、场景化/个性化的AI能力特质,助力企业发展。

  目前腾讯云AI语音语义产品架构从基础层到产品方案层分为:产品运营平台、基础模型服务、应用Paas服务和应用产品方案四个部分。在每个产品方向上,腾讯云AI都提供了详尽的AI能力,企业可以基于自己的业务场景,选择基础模型服务、应用PaaS服务、应用产品方案等不同层次的产品,降低企业应用AI能力的门槛。

  在企业客户的落地过程中,腾讯云观察到客户的需求非常全面,除了对语音语义能力的使用以外,还会用到其他相关能力进行结合。腾讯云也提出了一套全AI能力解决方案,在底层会结合包括人脸、车辆、物体识别、图像AI识别、OCR、生物分析、NLP等全AI能力,基于Ti Matrix云智天枢AI应用平台,深入广泛的行业,打造泛政务民生、泛金融、英皇彩票注册工业、智慧零售、广电传媒、运营商等AI解决方案。

  周超老师以协同办公场景为例,介绍了腾讯云基于实时语音、图像处理的线上实时多人音视频会议案例。会议记录是会议的刚需,方便人们对重要的会议内容进行留档并回顾总结。随着深度学习的出现,语音识别技术越来越成熟,会议记录的整理形式也从极其耗费人力成本的人工记录越来越多的被语音识别自动转录所替。

英皇彩票有限公司

轴承机电有限公司是一家以进口轴承销售为主的贸易公司,本公司在工业领域已有丰富的轴承配套及工业服务经验。公司专业

立即咨询立即咨询
咨询热线 400-888-888

返回顶部