蒸汽发生器

谷歌语音系统AI新科技：同真人声音无法区分

上架时间：2024-02-02 13:16:53 来源：m6手机网页版登录

在语音系统中起到了很大的作用。据报道，谷歌推出来一款文字转语音系统，具有极高的发音准确性，并且合成语音与真人声音难以区分。

据国外新闻媒体报道称，如果按照最新的标准来看，人类似乎已经将自己的“声带”正式献给了人工智能。这可并不是笔者在这儿危言耸听，而是谷歌本月开创性地推出了一款名为“Tacotron 2”的全新文字转语音系统，它具有惊人的发音准确性，且实际文本阅读效果几乎同真人声音无法区分。

消息称，“Tacotron 2”其实已经是谷歌的第二代类似技术，它由两个深度神经网络组成。其中一个负责将文本转换为可视化的图谱（通常是PDF格式），然后再将这个生成的这个可视化图谱载入第二个深度神经网络WaveNet（这个神经网络是从DeepMind实验室孵化而来），并将其还原为一个真实的声音。

目前，该系统只进行了英语女声的训练（如要需要它发出男性声音的话，谷歌则需要对其进行重新“培训”）。谷歌的研究人员表示，“Tacotron 2”可完全准确发音一些很复杂的单词和人名，并根据标点符号的不同而有所区分，甚至能够完美地讲完一段绕口令。举例来说，“Tacotron2”会默认在读到大写单词的时候加重语气，也可处理少量的人为打字错误。

同谷歌正在研发的别的核心AI技术不同，“Tacotron 2”不仅仅是某种一直停留在实验室阶段的技术，而是将对公司别的产品起到立竿见影的作用。举例来说，谷歌实际上已经将深度神经网络WaveNet用于在GoogleAssistant中生成更真实的语音反馈。而一旦这一产品在未来迎来加强完善后，它显然会对提升谷歌别的产品的使用者真实的体验提供更大帮助。

需要指出的是，所谓“语音合成技术”又称文本转语音（TTS）是如今很多移动产品和应用上不可或缺的技术模块，例如语音交互应用、导航、语音控制以及为视力障碍者设计的产品中都需要语音合成技术的支持。在此之前很长一段时间内，语音合成技术都是采用拼接方式，需要记录大量语料才能进行语音合成。这样的方法不仅前期需要处理大量数据，而且一旦说话人有所改变就要重新记录和处理，所以业界一直在寻找可以实时生成语音的方式。

对此，谷歌旗下DeepMind实验室在2016年就推出了WaveNet深度神经网络，该网络在经过真实语音训练后能够准确的通过文本直接生成音频。在过去12个月中，DeepMind一直在努力大幅度提高模型的速度和质量，用于“生成能够产生比现存技术更好、更逼真的，语音原始音频波形”。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

汽车一百多年的演变，见证了各学科科技发展的历史，各大车企也一直在不遗余力地将各种

运用到最新的车型中。2015年已经走入尾声，那么在过去这一年中，汽车产业又出现了哪些最新配置与功能呢？下面我们大家一起来回顾一下吧。

融入到实时转播，5G通讯也全力融入奥运通信保障和媒体转播当中。现场雪道，中国自研的造雪机发挥重大作用。

博览会展会时间2013年10月1-5日（展期5天）展会地点,日本展馆名称千叶县幕张会展中心日本电子高

生成算法的计算效率。同时，在FPGA环境下，Ouroboros只需0.3秒即可生成

分析技术，普通的机器人只能够抓取关键词匹配相关回答，相比市面上普通的机器人，同花顺

Devcloud。我尝试使用各种组合更改为Putty中的代理设置，但它不起作用。我也尝试过Linux，但它也有同样

X实验室负责研发工作，虽然还处在研究早期，但基础设想已经很成熟。安德鲁˙康拉德博士说

智能助手Assistant只需要执行一次“Hey Google(OK Google)”的

的流派的制作人，United Plugins称该效果将特别适合于Trap、hip-hop、EDM、RB和当代流行音乐。软件

。并且电路简单、操作简单便捷，低功耗，更重要的是，PM50芯片可选择21K高品质采样率，使放出的

采集音频采集板卡主要运用的是TI官方的方案TLV320AIC3254音频编解码器+TPA2012D2RTJ功率放大器，如图1.0.1为

【orangepi zero试用体验】【结项】基于Orange Pi Zero的人机交互

向服务器解析为文字，接着将文字发送到图灵机器人服务器，返回应答语句，再把应答语句传向服务器转化为

采集音频采集板卡主要运用的是TI官方的方案TLV320AIC3254音频编解码器+TPA2012D2RTJ功率放大器，如图1.0.1为

延时只有大约十微秒左右。对于AI应用，特别是基于深度学习的应用来说，很多应用场景对实时性有着严格的要求，例如搜索、

九月，2021年网络5.0峰会在北京成功举行，此次峰会发布了12项领先创

成果，由中兴通讯申报的三项面向前沿且具有国际竞争力的提案，成功入选网络5.0领先创

` 本帖最后由沈阳**科技于 2016-5-18 20:19 编辑沈阳创

完成项目方案设计经验 3、熟练使用PS、CAD、3DMAX等设计类软件及办公软件 4、具备独立完成照明产品、项目方案设计能力 5、具备良好的沟通协调能力 6、可接受阶段性出差北京君汇创

除可以分辨出你的性别、年纪与种族外，还可以描绘出你的长相。这款由麻省理工学院(MIT)所打造出来的

识别并做出判断，然后输出相应的动作指令控制头部和手臂的动作，传统的机器人听觉

一般是以PC机为平台对机器人来控制，其特点是用一台计算机作为机器人的信息处理

文件或者录一段音，然后把和一个正弦信号相加，可是，运行时为啥说波形有不同的dt值？该怎么改呢？

设计复杂，使用体验差，使用者真实的体验感大幅度的降低。针对类似项目需求，可采用启英泰伦

将一首歌曲的波形数据导入到 MATLAB 中，截取出一段只包含配乐的数据和一段混合配乐和

实力。特别是，微软从英特尔子公司 Altera 购买芯片，并使用软件对芯片

识别并做出判断，然后输出相应的动作指令控制头部和手臂的动作，传统的机器人听觉

一般是以PC机为平台对机器人来控制，其特点是用一台计算机作为机器人的信息处理

识别并做出判断，然后输出相应的动作指令控制头部和手臂的动作，传统的机器人听觉

一般是以PC机为平台对机器人来控制，其特点是用一台计算机作为机器人的信息处理

术的最新产品。能实现一步一亮，还可以带音乐。适合各种KTV,酒店，酒吧等公共场所的楼梯用。`

。DeepMind与Google以及患有肌萎缩性脊髓侧索硬化症(ALS)的蒂姆·肖(Tim Shaw)等语言障碍人士合作。目的

集聚示范区是央企中国电子信息产业集团（CEC）在深圳华强北打造的科学技术创新综合体，由中电智方舟、中电

“大脑”的处理，给出相应的回答。同时，人类的回答会自动储存在个人的账户下面。 Amazon Echo / Google Home 对应被记录下来的

识别芯片——音旋风611(英文名称：Voitist611)目前郑重进入批量供货量产并已获得大量客户的认可和采用。这款芯片将适用于各种需要

本帖最后由 linchenfeng 于 2014-8-10 21:33 编辑非特定

的基音和一系列的泛音所构成。这些泛音都是基音频率的位数，物理学叫分音，电声学叫

全属子公司 ZiiLABS 近日在2009 籽亿高科峰会上宣布，他们将与中国高

ZiiO 10”纯无线娱乐(Pure Wireless Entertainment)

无论是在电影里还是真实的生活中，打击犯罪永远是一个没有明确答案的难题。从研发

与先进设备，到应用神秘的第六感感知，各国政府机构各司其职，为打击犯罪，保护人民而忙

”的消费者。联发科正把这套成功模式复制到印度等其他新兴市场，去年推出能在没有手机网路的区域运作的智能手机晶片，手机的用

苹果手机不断曝出新品新闻，究竟苹果在十周年之际会有哪些让人眼前一亮的最

的场域之一，2017年阿里巴巴推出扩增实境(AR)的抓黑猫活动，让民众体验有如Pokemon GO般的乐趣，但其在2016

当人工智能、物联网、虚拟现实、增强现实、脸部识别等技术逐渐成熟，应用层面也随之扩大。看这些

。在人机一体化智能系统的大趋势下，新的科技会让人们的生活方式彻底改头换面，大踏步迈向另一个新纪元。但现在，仍不断地涌现出新的令人兴奋的

先向微软致敬。每年最重要的Build开发者大会，微软都会在最黄金的时间，放下自己的王牌产品展示，用几分钟的视频介绍一个微软用最

声称这个演示使用的是真实的电话录音，对方是真正的商户，但录音有造假的可能性。

将对我们的生活、以及全球的劳动者产生前所未有的巨大影响，全世界都已经看到人工智能、算法、大数据和智能

嘈杂的环境中，要想分辨出有几个人讲话、在什么时间讲话，对于机器来说十分艰难。但

德国正积极发展无人驾驶汽车，不过如今的社会是不是已经准备好迎接这项划时代

产品赛道逐渐进入了常规化模式，邀请明星出声也成为了基本操作，相比传统的机械式

无论是在效果还是情感方面都是无可比拟的，再加上明星效应，用户的体验效果将来得更加直观。

翻译技术，有望成为未来的“机器同传”上图的辅助识别任务区域（Auxiliary recognition tasks）就是负责在生成目标语种频谱图的同时，也顺便学习一下如何预测

。不过，出于伦理、社会影响等方面的考虑，Dessa 并未公布该项目的研究细节、模型和数据集。

zip文件作为Windows PC主题。它是为我量身定做的，但是它将使您对可以做的事情知道。以下是一些创造性的想法：

再过2个星期就是双11了，各大平台、商场已经开启预售模式，面对巨大的商品进出，物流业迎来了一群

”）合作，双方将共同建设Mini /MicroLED显示项目基地，项目落户无锡市梁溪区，总投资10

）公司商汤科技SenseTime与香港消毒科研公司金康科技近日签属合作协议，共同推出香港首座CLeanTech智能测温消毒通道设施，以创

”）与华为技术有限公司（以下简称“华为”）的全面合作协议签约仪式在武汉举行，双方将聚焦打造“数字能源平台”，在智能光伏、家庭绿电、企业

3月17日-19日，2021 慕尼黑上海电子生产设备展盛大开幕。在本次展会上，聚焦电子制造业十余年的珠海智新自动化科技有限公司（以下简称：智

播报，还能深刻理解用户的疑问并给出相应的答案，甚至对方都不知道说话这么久的对象是机器人。智能

2021年08月03日，小鹏P7迎来又一次OTA升级，新版本对应Xmart OS版本号为2.6.1。本次OTA重点新增了智能

势能，积极抢抓数字化转型先机，把数据作为企业的核心资源，运用 Hightopo 自主研发的 HT for Web 可视化产品，擦亮绿色发展底色，解决传统码头和船舶能耗高、成本高、污染大等问题。

作为音源，基于李彦宏的《智能交通》一书通过AIGC技术所生成。据网友称，这本有声书根本分不出到底是

奥普2022科技新品发布会圆满收官突破一步，重新定义家电科技在智慧生活时代，各类革

早已遍布于生活中的各个角落。就在9月12日，随着奥普2022年品类新品发布会在杭州奥体小莲花的召开

媒体沟通会”。沟通会上，华为终端BG手机产品线副总裁李小龙对XMAGE影像技术和北斗卫星消息功能的创

合成是重要的一环，其技术也在持续不断的发展。近年来，人们对情感合成的兴趣和需求慢慢的升高。情感

相结合，可以将这些可视化效果叠加到 AR 眼镜上，从而使用户能看到并理解他们

。根据世界卫生组织的统计，约有 15 亿人（占全球人口近 20%）患有听力损失。到 2050 年，这

、安全性能（文末查看往期T820与之相类似的文章）。今天，小展将带你一同探索T820的音频性能。

是人类感知与交互的重要组成部分，音频应用早已覆盖了我们正常的生活的方方面面，紫光展锐T820从用户方面出发，在

（Creative Technology）近日宣布与xMEMS Labs达成战略合作伙伴关系。xMEMS是固态保线

（Creative Technology）近日宣布与xMEMS Labs达成战略合作伙伴关系。xMEMS是固态保真的先驱者，通过将xMEMS的尖端MEMS固态扬声器

9月26日，行业权威媒体Internet Deep（互联网周刊）重磅发布了【2023中国

100强】榜单，Testin云测凭借自身实力成功入围，同期入榜的还有联通数科、火山引擎、零数

上一篇:成婚13年是什么婚成婚十三年归于什么婚下一篇:负离子发生器装置教程不看懊悔 >

导航栏目

新闻中心

联系我们

联系人：郝经理

手机：18939624888

电话：0394-8922555

邮箱：825878707@qq.com

地址：太康锅炉南工业区