自动语音识别技术出来是谁拨打的通讯工具可以被研发生产出来嘛?

近年来,人工智能已经成为国际科技竞争的新焦点。作为多学科交叉结果和通用型技术,人工智能技术同上下游的相关技术和应用一起形成了错综复杂的技术体系网络。这一网络目前初见雏形,但仍处于快速更新、剧烈变化的动态发展状态。经过多方资料的汇总和梳理,本文尝试从根技术、核心共性技术、智能应用技术、典型应用场景四个层面勾勒人工智能技术的整体技术体系和国内外发展情况。初步研判,目前人工智能产业的发展存在着两个主要趋势:一是不断拓展、深挖核心技术;二是积极寻求在传统产业的应用空间。

   一、根技术:广泛融合,不断扩展

数学与工程学始终是人工智能发展过程中的重要基石。例如1956年达特茅斯会议以来,控制论曾长期处于人工智能研究的主导理论地位;机器学习算法的发展过程则可视为数学方法不断演进的过程。

   80年代人工智能的主流理论逐渐演化为信息论,同期也诞生了深度学习算法。深度学习算法能够在近年获得成功除了得益于自身算法的不断完善,还应归因于三十年来信息学与计算机科学的快速发展。尤其是大数据技术的发展提供了前所未有的丰富数据,使得各类机器学习算法获得了充足的学习资源;而计算性能的提升也保证了其潜力的充分发挥。

   出于对人类智能的追求,脑科学与认知科学在人工智能的各个发展阶段都是主要参与学科之一。例如人工神经网络的数学理论雏形就是在心理学家Warren Mcculloch的参与下产生的。当前类脑智能更被认为是人工智能的未来发展方向之一,因此对脑科学与认知科学的研究仍将受到广泛关注。相关研究可以分为关注基因、蛋白质、神经元、化学信号、电信号的“硬件研究”和关注认知、行为、心理的“软件研究”两大类。目前普遍认为后者对于类脑智能的研发更具指导意义。

   多项不同根技术的广泛融合成就了当前人工智能技术的高速发展。同时这一融合范围还在不断扩大。例如随着智能芯片的发展,集成电路相关技术已经成为了人工智能技术体系的一部分;量子计算也被纳入人工智能的技术网络中。人工智能的多学科交叉特色将会越来越显著。

   二、核心共性技术

   核心共性技术大致可以分为人工智能芯片、基础算法和系统平台三类。在具体应用中,各种不同算法是系统平台的基础;人工智能芯片作为硬件是算法的基础。但在实际的创新链中,人工智能芯片也是基于基础算法的特点、需求和指导而开发的。基础算法是人工智能技术发展的根本核心。

   1  基础算法:创新活跃,任重道远

   早期计算智能算法主要模仿了人类智能的“知识表示与推理”功能。虽然出现了专家系统、几何证明机、“深蓝”等案例,但整体上仍存在效率低下、维护性差、性价比低等难以克服的问题,未能取得商业成功。

机器学习算法则更进一步,在形式上模拟了人脑的学习功能,即重复训练次数多的“思考”过程会被强化。这一突破性进步能够大大提升人工智能系统的运行效率,并降低编码成本。人工神经网络算法是机器学习算法的重要分支,初步借鉴了人脑神经元的某些运算机制。深度学习算法是人工神经网络算法的一个拓展,通过多层神经网络,形成比浅层结构简单学习更强大的从少数样本集中归纳数据集本质特征的能力。近年来,算法方面的研究始终处于频繁更新、快速迭代的状态。目前单纯的深度学习算法已经略显“过时”。在其基础上开发的卷积神经网络、循环神经网络、递归深度神经网络等成为最新前沿。此外现有算法的交叉组合,例如深度学习算法同强化学习算法综合形成的深度强化学习方法等也逐步成为新的热点。在计算智能算法和机器学习算法的研发方面,欧美大学占据绝对的领跑地位。全球排名前30的高校中,美国高校占比最高,达到22家;我国高校无一上榜。

尽管在目前获得了一定的成功,但机器学习算法的机理仍然是统计拟合、暴力计算,并不具备真正的基于理解的学习、推理和决策能力,因此在应用中仍具有极大的局限性。部分专家甚至认为机器学习算法无法真正解决自然语言翻译、全自主自动驾驶等热点问题。当前比较明确的面向未来的前沿算法基础理论中,高级机器学习仍然无法突破机器学习的框架;量子计算主要是配合高级机器学习的发展;类脑智能计算则被许多专家视为新一代人工智能技术的突破口。近期美、日、德、法、欧盟和以色列等主要国家和地区都开展了脑科学与人工智能的联合研究,但众多现有类脑智能研究都主要以利用人工智能工具研究脑科学为主,对人工智能研究的推动不足。将两方面研究紧密结合的机构仅有麻省理工学院、卡内基·梅隆大学和加州大学伯克利分校等少数高校。整体而言,新一代人工智能的基础算法研究仍然任重道远。

   2  人工智能芯片:多路线竞争,分领域发展

   目前的人工智能芯片根据技术路线可分类三类。首先是通用型的CPU及GPU芯片。CPU的架构和指令集对神经网络计算的兼容度不够,性价比和运算效率偏低。但英特尔、ARM在新的CPU产品Xeon Phi和DynamIQ中强化了对神经网络计算的支持。GPU的架构比CPU更有利于相关算法的运行。传统的GPU厂商英伟达和AMD分别推出了Tesla V100和RadeonInstinctMI25来开拓人工智能芯片的市场空间。英特尔也通过收购的方式推出了Nervana以进入GPU领域。

   第二类是FPGA芯片。FPGA具有可定制的特点,使用者可以对芯片进行二次开发使其更加适宜特定的运算环境。由于牺牲了通用性,FPGA芯片的价格相对CPU和GPU而言较为便宜。目前Xilinx 、Altera、Microsemi、Lattice等少数厂商基本垄断了 FPGA的生产。英特尔通过收购Altera也进入了FPGA芯片的生产环节。基于外购芯片,微软、百度等领先企业均具有较强的二次开发能力。百度已经推出了基于FPGA的百度大脑芯片。

第三类是ASIC芯片。此类芯片是彻底的专用芯片,也不具备编辑功能。设计新ASIC芯片的前期投入较高,但大规模生产后能够实现极低廉的成本。ASIC芯片对特定计算的运行效率极高,但也仅能应用于特定计算。目前ASIC芯片分两个技术方向。(1)脉冲神经网络芯片,以IBM的TureNorth为代表,以脉冲长短模拟大脑神经元间的交流活动。(2)机器学习芯片,以谷歌TPU和我国寒武纪为代表,以概率变化模拟大脑神经元间的交流活动。比较而言,后者直接针对机器学习算法的需要,目前在商业化应用竞争中占据优势,高通的Zeroth即是从早期的脉冲神经网络芯片转为现今的机器学习芯片方向。前者仍需忆阻器等基本原件的进一步发展,但对于类脑算法研究而言有着长远的意义。

   整体而言,三类人工智能芯片各有特点,都具有对应的潜在细分市场空间。不同场合下对通用性、成本、性能的不同要求会产生不同的解决方案。苹果A11、华为麒麟970中的人工智能模块以及谷歌TPU都只是用于配合CPU完成特定运算。

   3  系统平台:多方混战,抢占地盘

实际应用中,可能被用到的大量不同基础算法需要整合成为集成化、高度兼容的软件工具来发挥作用。较完备的工具软件包形成了稳定的系统环境。围绕一些开源系统往往还会形成全球共享的研究成果交流平台。在系统平台领域抢占话语权,就能在人工智能时代形成类似PC时代Windows系统或手机时代安卓系统的优势市场地位。当前人工智能系统平台处于活跃发展、普遍竞争的状态,尚未产生稳定格局。Facebook、IBM等大公司和许多创业型小公司都推出了自己的开源项目。苹果通过收购Turi公司涉足了这一领域。我国的百度也在近期推出了自己的开源平台PaddlePaddle。谷歌则完全基于其Tensor Flow平台设计出了TPU芯片,在战略层面打通了软硬件市场的布局。

   三、智能应用技术:感知、决策、执行集成化

智能应用技术是核心共性技术基础上的具体应用研究,主要是解决了某种特定类型问题的解决方案。某项专项技术可能用于许多不同的应用场景;特定应用场景也往往包含了多项专项技术。

   智能传感器方面,目前国际一流传感器的市场基本被外国公司所垄断,我国的产业和研发实力明显处于劣势。模式识别在广义上既包括一些共性理论,也包括在语音、图像、自然语言分析等方面的具体识别技术,在此分别表述为模式识别理论和感知与理解技术。智能决策分析则主要侧重数据挖掘方向的专项应用。机器人、无人机、自动驾驶汽车也开始大量应用基于机器学习的智能控制技术。此外,人机交互也是当前的重点之一。

   以往在机器人及自动化领域的研究中,经常依照感知、决策、执行三个环节来分析其技术体系,人工智能的发展则逐步模糊了三者的边界。例如机器视觉既包含基于视觉传感器的感知环节,也是对视觉信号进行分析处理和判断的决策环节。人机交互则同时涉及了以人为对象的感知和执行两个环节。未来人工智能技术将进一步推动感知、决策、执行的集成化水平。

   四、典型应用场景:热点集中,各显神通

以新增企业的业务方向为标准,近年人工智能产业关注度最集中的细分领域为机器视觉、自然语言处理和自动驾驶。这三类专项智能技术所派生的应用场景也是当前人工智能市场的主要热点。例如机器视觉技术发展出的网络图像审核、人脸识别、虹膜识别、设备登录验证、金融身份验证、安防监控等应用;自然语言处理技术发展出的语音输入、机器翻译、拟人交流、智能客服等应用。

   这些焦点应用中,比较成熟的自然语言处理、机器视觉及图像识别、语音识别等基本都局限在信息产业之内。能够同实体经济挂钩的自动驾驶虽然获得广泛关注但短期内尚难以突破。目前寻找能够对接传统制造和服务业的应用点是人工智能产业发展的重要任务,也是人工智能“通用型”应用的必然需要。

目前对新应用领域的探索主要分为三种情况。(1)龙头引领,即领先企业的战略意志推动新应用市场的开辟,并利用技术、资金、影响力等方面的优势而暂时处于无人竞争的状态。例如IBM基于沃森所提供的医疗诊断、法律咨询等服务,以及阿里巴巴所提出的城市大脑。(2)主动吸收,即一些专业性较强的行业主动吸收人工智能方法改善自身产品水平,主导者是业内原有的成熟主体而非新兴的人工智能企业。这也是最能体现人工智能“通用型”的应用类型。例如财务分析、科研辅助、交融交易分析等。(3)有待开拓,即相关领域理论上存在应用人工智能的可能,但尚缺乏实用性强、市场空间大的成熟产品。例如防灾减灾、基础设施维护、智能制造、智能教育等。

郭喨:人工智能革命与人类命运

以人工智能为代表的当代智能革命是关于人类自身的一场根本性变革,这是一场“三维一体”的革命——科技、产业、社会这“三维”和“人”这“一体”。智能革命既是科技革命,也是产业革命,还是社会革命——将多方面重塑我们的生活形态;智能革命更是人类自身的革命,人类在革命中的“深度科技化”将与此“三维”相互作用、共同演化。从“反身的革命”到“自身的革命”或“具身(embodied)的革命”,“人的革命”是人工智能革命的突出特点。   

   在此次革命中,人类的科技化正在变成一幅不同的图景。不同于以往三次科技革命,此次革命是真的革“命”——人类不可避免地“涉入”以人工智能、大数据、云计算等主导的“新世界”。过去的历次科技革命其影响主要处于“人”这一“主体”之外,我们可以相对清晰地划出“主体”与“对象”的界限。但此次革命及与之相伴的人类深度科技化不同于以往历次革命,是一场人类“自身的革命”。   

   人的身体被“智能体”替代。如生化电子人(Cybernetic Organism,Cyborg)将智能感应器植入人体内,取代人的某些器官,甚至与人的神经系统进行连接;微型膀胱感应器可以让脊椎创伤患者的膀胱“恢复”感知能力从而实现自主排便;有些智能眼镜通过全息影像、扩增实境、语音与手势识别成为“人工智能眼”,能够替代人类眼睛的某些基本功能;“智能假肢”等也随着生物材料的发展被更广泛地应用。人的“机器化”、“电子化”不可避免且前景广阔。   

人的认知和判断被“智能”替代。人工智能根据有限现有信息对人类进行大量重复而同类型的“个性化推荐”,导致人们陷入“喜欢的—推荐的—喜欢的”的自反陷阱无法逃离,切断了人类对新鲜、陌生与异质世界的接口,对人类思想、认知与行为都将产生重大影响。人工智能将决定向人类(向某一个或每一个特定个人)“投喂”何种“精神饲料”;由于在具体智能(如计算最佳路线)上存在巨大“人—机”差异,我们几乎找不到任何理由拒绝这种“推荐”,人工智能将以“最佳推荐”等方式深刻影响乃至基本替代人类的认知和判断。这易于导致人类主体性、独立性的削弱乃至丧失。   

人的思想和意识本身被“智能”替代。由于人类的意识尚属于“待解之谜”,“机器意识”一度为视为科学幻想。然而从功能上考察,机器完全可以以一种人类所不能理解的方式进行有效交流并且创造出相应的语言和其他交流方式(深层神经网络学习已经出现了某种广义的、人类所不能理解的“机器意识”),这种或这类更适合人工智能的机器间的语言或“机器思想”,可能将以更广的应用、更高的效率等优势实现对人类意识的逐步替代。   

   人工智能智能革命及“人类深度科技化”的结果将模糊“人”与“物”的界限,将革新“人的智能”、带来“智能的人”,并将革新“物的智能”、带来“智能的物”。“智能革命”将引发伦理与社会秩序的重构,带来全新的社会秩序。   

   “智能革命”具有“三个不”的特征:不可逆、不可测和不可分,表现为“趋势不可逆”与“后果不可逆”;“技术不可测”与“未来不可测”;“主客不可分”与“人机不可分”。   

“趋势不可逆”与“后果不可逆”:由于人类对发展、进步和效率的需求,智能革命的发生存在必然性,而且一旦发生就无法停止,能做的只是决定如何发展。智能革命是一种多维度、不可逆的革命,它将带来政治—经济—社会等复合维度的后果。由于智能革命对“人”本身的深度介入——智能革命过后的“人”甚至将不同于革命之前的“人”。智能革命具有突出的“后果不可逆”特征,“人类深度科技化”即是其“不可逆”的结果。   

“技术不可测”与“未来不可测”:当前革命中,智能技术进入了新的集成阶段:人工智能、机器人技术、移动通讯技术、大数据、云计算等技术相互融合,取得了突破性的进展。技术集成不是多种技术的简单相加,而是会产生“突变”、“涌现”的智能体,从而改变智能演化的路径。由于“技术不可测”以及技术的价值敏感、涉身性和放大效应,带来了未来的不确定性,从而导致“未来不可测”。人们对未来的判断存在分歧:技术专家忙于解决具体的技术问题,例如基于“杭州城市数据大脑”把杭州车辆通行速度提高5%,智能革命的风险尚未在技术研究领域彰显;而哲学家则由于缺乏实证的证据和对此类技术本身的认知隔阂而无法切入技术体系内部,技术专家批评他们连Python这样最简单的程序语言都不懂——这体现了在人工智能问题上,哲学家、科学家与工程师之间缺乏有效的交流。未来之所以“不可测”主要原因在于“革命”的意义尚未充分彰显,我们还不清楚应如何应对。   

“主客不可分”与“人机不可分”:智能革命及人类深度科技化的直接后果是伦理与社会秩序的重构,应对前三次科技革命的经验如“主客二分”、“身心二元”、“人机分离”等在“现代性”框架里的“历史经验”纷纷失效——无论是作为现象的描述、还是作为对规则的制定,都要求着某种“不可分”:“智能的人”和“智能的物”的界限将更加模糊,我们并非外在于智能革命,我们内在于其中。黑格尔在《精神现象学》中超前地提出了适用于今天这场革命的命题“把主体看成实体,把实体看成主体”,智能革命的未来里,“主体”与“实体”可能并不可分。   

   由于人工智能革命和人类深度科技化的前述特征,我们需要一种全新的观念主动迎接“深度科技化”。作为“智能革命”的最初动力和结果承担者,我们不仅是观众,还是表演者,与新智能体共舞——改变世界的同时,也为其所改变。我们需要拥抱,而不是打砸人工智能这一强有力的工具,在这一新工具的帮助下我们可以获得前所未有的发展。既然“未来不可测”,那么无需预测——我们只需把它创造出来!

文档格式:DOC| 浏览次数:3| 上传日期: 21:28:47| 文档星级:?????

全文阅读已结束,如果下载本文需要使用

该用户还上传了这些文档

  Google近期推出了开源的视频聊天软件WebRTC。有消息称Google将把这款功能类似的软件集成到中。

  不过,Google对WebRTC有更高的期望。Google希望WebRTC能成为互联网视频会议和点对点通信的标准,并在此基础之上制定网 络通信协议。Google在官方博客中表示,WebRTC将是开源、无版权费的,Google还将就WebRTC与Mozilla和等其他浏览器厂商合作。

  Google是网页和云计算的积极支持者。网页应用能够很方便地跨,不仅可以用于Windows和Mac OS X,也可以被智能使用。预计WebRTC将很快进入Chrome浏览器。

  Google GIPS一名程序员亨里克·安德里森(Henrik Andreasson)表示:“我们的目标是通过简单的Javascript应用程序接口,使拥有实时通信能力(RTC)。我们正在努力使Chrome全面支持RTC,从WebKit到语音视频通信功能。”

  WebRTC使用了GIPS的两款语音编解码器,包括用于宽带连接的iSAC和用于窄带连接的iLBC。视频部分,WebRTC使用了Google的VP8编解码器,这也是一项开源、无版权费的技术。

一个简单语音识别系统:

我要回帖

更多关于 语音识别 的文章

 

随机推荐