语音识别用什么硬件是靠硬件还是软件

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>软件 >>语音识别用什么硬件是靠硬件还是软件

语音识别用什么硬件是靠硬件还是软件

来源：蜘蛛抓取(WebSpider) 时间：2018-01-13 05:53 标签：语音识别成文字软件

The page is temporarily unavailable
nginx error!
The page you are looking for is temporarily unavailable.
Please try again later.
Website Administrator
Something has triggered an error on your
This is the default error page for
nginx that is distributed with
It is located
/usr/share/nginx/html/50x.html
You should customize this error page for your own
site or edit the error_page directive in
the nginx configuration file
/etc/nginx/nginx.conf.DSP在语音识别中的应用_百度文库
两大类热门资源免费畅读
续费一年阅读会员，立省24元！
DSP在语音识别中的应用
&&哈工大数字信号处理报告
阅读已结束，下载文档到电脑
想免费下载本文？
定制HR最喜欢的简历
下载文档到电脑，方便使用
还剩4页未读，继续阅读
定制HR最喜欢的简历
你可能喜欢The page is temporarily unavailable
nginx error!
The page you are looking for is temporarily unavailable.
Please try again later.
Website Administrator
Something has triggered an error on your
This is the default error page for
nginx that is distributed with
It is located
/usr/share/nginx/html/50x.html
You should customize this error page for your own
site or edit the error_page directive in
the nginx configuration file
/etc/nginx/nginx.conf.The page is temporarily unavailable
nginx error!
The page you are looking for is temporarily unavailable.
Please try again later.
Website Administrator
Something has triggered an error on your
This is the default error page for
nginx that is distributed with
It is located
/usr/share/nginx/html/50x.html
You should customize this error page for your own
site or edit the error_page directive in
the nginx configuration file
/etc/nginx/nginx.conf.谢邀&br&就在刚刚！我的bixby5级了！又解锁了新的姿势呸皮肤。&br&&figure&&img src=&https://pic3.zhimg.com/v2-be4b4c2190d2fdcd5ad328f2_b.jpg& data-rawwidth=&720& data-rawheight=&720& class=&origin_image zh-lightbox-thumb& width=&720& data-original=&https://pic3.zhimg.com/v2-be4b4c2190d2fdcd5ad328f2_r.jpg&&&/figure&&br&继续补充使用体验～&br&1、打开微信，发送XXX给XXX。节省了微信找人打字的程序，而且准确率非常高。&br&2、打开微信，发送X块钱红包给XXX。主要是在朋友面前展示Bixby时用。。。（发掉了好多钱???︿???）&br&3、打开高德地图，导航至XXX。一步到位，省心。&br&4、打开XX音乐，播放本地歌曲。同上。&br&5、打开ofo扫码。抢车不要太快。&br&6、相机手电筒wifi啥的就不多说了&br&～～～～～～～～～以下为新～～～～～～～～～&br&7、学习技能真的是棒棒的，刚刚尝试在录音里寻找特定音频失败，于是手嘴并用教了她一边，现在麻溜麻溜的。&br&8、尝试了几个组合命令。“上车！”=打开蓝牙＋打开GPS＋打开QQ音乐播放本地文件＋打开高德地图。“到家啦”=打开wifi＋关闭蓝牙＋关闭GPS＋清理所有后台。是不是很棒棒？&br&&figure&&img src=&https://pic1.zhimg.com/v2-fe5c7ca53e4_b.jpg& data-rawwidth=&626& data-rawheight=&657& class=&origin_image zh-lightbox-thumb& width=&626& data-original=&https://pic1.zhimg.com/v2-fe5c7ca53e4_r.jpg&&&/figure&最后。。。我的中二继续溢出ing&br&&br&&figure&&img src=&https://pic2.zhimg.com/v2-122f9eefb1_b.jpg& data-rawwidth=&1080& data-rawheight=&2220& class=&origin_image zh-lightbox-thumb& width=&1080& data-original=&https://pic2.zhimg.com/v2-122f9eefb1_r.jpg&&&/figure&
谢邀就在刚刚！我的bixby5级了！又解锁了新的姿势呸皮肤。继续补充使用体验～ 1、打开微信，发送XXX给XXX。节省了微信找人打字的程序，而且准确率非常高。 2、打开微信，发送X块钱红包给XXX。主要是在朋友面前展示Bixby时用。。。（发掉了好多钱??…
&p&谢不邀。&br&&/p&&p&先说结果，&b&你体验不到，至少暂时你体验不到。&/b&不知道搜狗和讯飞为什么这么着急去秀实时翻译，难道是到年根儿了，公关的KPI还没有完成？&/p&&br&&p&搜狗秀完实时翻译后，答主看到一则报道里写着“而在应用上，搜狗透露很快将其（实时翻译）集成在搜狗输入法中。” &a href=&//link.zhihu.com/?target=http%3A//cn.technode.com/post//snmt-sogou/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&搜狗推出语音实时翻译技术，又来抢人类饭碗？ - 动点科技&i class=&icon-external&&&/i&&/a&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-47eeff16e76fe3f7d8a96230_b.png& data-rawwidth=&554& data-rawheight=&88& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&https://pic1.zhimg.com/v2-47eeff16e76fe3f7d8a96230_r.png&&&/figure&&br&&p&也就是说“现在技术还没有更新到产品上，至于什么时候产品落地，没说，但总之‘很快’。”&/p&&br&&p&前天看了讯飞发布会，答主又找了下讯飞实时翻译的使用入口。&/p&&p&（附官网链接&a href=&//link.zhihu.com/?target=http%3A//www.iflyrec.com/help/znhy.jsp& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&听见智能会议系统,高效语音实时转写_讯飞听见&i class=&icon-external&&&/i&&/a&）&/p&&br&&figure&&img src=&https://pic1.zhimg.com/v2-1ad7356acf135a14eb13d4_b.png& data-rawwidth=&554& data-rawheight=&272& class=&origin_image zh-lightbox-thumb& width=&554& data-original=&https://pic1.zhimg.com/v2-1ad7356acf135a14eb13d4_r.png&&&/figure&&br&&p&官网上没有相关的产品下载地址或设备购买方式，不过幸好右边有客服电话。&/p&&p&客服表示，发布会展示的实时翻译是一个软硬件相结合的智能会议系统，现阶段技术成型了，但是还没有产品落地。&/p&&p&“那大概什么时候落地呢？”&/p&&br&&p&讯飞给出了跟搜狗一样的答案，“很快就会落地的！”&/p&&p&所以楼主，你是暂时体验不到这两款产品的。&/p&&p&以下为答主个人观点，不喜请绕行。&/p&&br&&p&1.
如果要开发布会，至少要保证展示的东西别人也能用到或者买到，如果消费者体验不了，会很失望。&/p&&p&2.
既没有实际产品让人体验，又不告诉产品什么时候上线，单纯炫技展示的技术只能说是伪技术。&/p&&p&3.
公关固然重要，但发布会毕竟是一次宣传产品功能和传递品牌价值的活动，靠公关技巧来吸引公众眼球，会透支公众对技术和品牌的信任。&/p&
谢不邀。先说结果，你体验不到，至少暂时你体验不到。不知道搜狗和讯飞为什么这么着急去秀实时翻译，难道是到年根儿了，公关的KPI还没有完成？搜狗秀完实时翻译后，答主看到一则报道里写着“而在应用上，搜狗透露很快将其（实时翻译）集成在搜狗输入法中…
语音识别开发平台有很多，具体总结如下：（更详细的介绍参见本人的博文：&a href=&//link.zhihu.com/?target=http%3A//ibillxia.github.io/blog//several-plantforms-on-audio-and-speech-signal-processing/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&几个常见的语音交互平台的简介和比较&i class=&icon-external&&&/i&&/a&）&br&&h2&1.商业化的语音交互平台&/h2&&h3&1)微软Speech API&/h3&&br&微软的Speech API（简称为SAPI）是微软推出的包含语音识别（SR）和语音合成（SS）引擎的应用编程接口（API），在Windows下应用广泛。目前，微软已发布了多个SAPI版本（最新的是SAPI 5.4版），这些版本要么作为于Speech SDK开发包发布，要么直接被包含在windows 操作系统中发布。SAPI支持多种语言的识别和朗读，包括英文、中文、日文等。&br&&h3&2).IBM viaVoice&/h3&&p&IBM是较早开始语音识别方面的研究的机构之一，早在20世纪50年代末期，IBM就开始了语音识别的研究，计算机被设计用来检测特定的语言模式并得出声音和它对应的文字之间的统计相关性。1999年，IBM发布了VoiceType的一个免费版。2003年，IBM授权ScanSoft公司拥有基于ViaVoice的桌面产品的全球独家经销权，随后ScanSoft与Nuance合并，如今viaVoice早已淡出人们的视线，取而代之的是Nuance。&/p&&h3&3）Nuance&/h3&&br&Nuance通讯是一家跨国计算机软件技术公司，总部设在美国马萨诸塞州伯灵顿，主要提供语音和图像方面的解决方案和应用。目前的业务集中在服务器和嵌入式语音识别，电话转向系统，自动电话目录服务等。Nuance语音技术除了语音识别技术外，还包扩语音合成、声纹识别等技术。世界语音技术市场，有超过80%的语音识别是采用Nuance识别引擎技术，其名下有超过1000个专利技术，公司研发的语音产品可以支持超过50种语言，在全球拥有超过20亿用户。苹果的iPhone 4S的Siri语音识别中就应用了Nuance的语音识别服务。&br&&h3&4）科大讯飞&/h3&&br&科大讯飞作为中国最大的智能语音技术提供商，在智能语音技术领域有着长期的研究积累，并在中文语音合成、语音识别、口语评测等多项技术上拥有国际领先的成果。占有中文语音技术市场60%以上市场份额，语音合成产品市场份额达到70%以上。&br&&h3&5）其他&/h3&&br&其他的影响力较大商用语音交互平台有谷歌的语音搜索（Google Voice Search），百度和搜狗的语音输入法等等。&br&&h2&2.开源的语音交互平台&/h2&&br&&h3&1）CMU-Sphinx&/h3&&br&CMU-Sphinx也简称为Sphinx（狮身人面像），是卡内基 - 梅隆大学（ Carnegie Mellon University，CMU）开发的一款开源的语音识别系统，它包括一系列的语音识别器和声学模型训练工具。最早的Sphinx-I 由&a class=&member_mention& data-editable=&true& data-title=&@李开复& data-hash=&043ff01e5d03c529c268d50f& href=&//www.zhihu.com/people/043ff01e5d03c529c268d50f& data-hovercard=&p$b$043ff01e5d03c529c268d50f&&@李开复&/a& （Kai-Fu Lee）于1987年左右开发，使用了固定的HMM模型（含3个大小为256的codebook），它被号称为第一个高性能的连续语音识别系统（在Resource Management数据库上准确率达到了90%+）。最新的Sphinx语音识别系统包含如下软件包：&br&? Pocketsphinx — recognizer library written in C.&br&? Sphinxbase — support library required by Pocketsphinx&br&? Sphinx4 — adjustable, modifiable recognizer written in Java&br&? CMUclmtk — language model tools&br&? Sphinxtrain — acoustic model training tools&br&这些软件包的可执行文件和源代码在sourceforge上都可以免费下载得到。&br&&h3&2）HTK&/h3&&p&HTK是Hidden Markov Model Toolkit（隐马尔科夫模型工具包）的简称，HTK主要用于语音识别研究，最初是由剑桥大学工程学院（Cambridge University Engineering Department ，CUED）的机器智能实验室（前语音视觉及机器人组）于1989年开发的，它被用来构建CUED的大词汇量的语音识别系统。HTK的最新版本是09年发布的3.4.1版，关于HTK的实现原理和各个工具的使用方法可以参看HTK的文档HTKBook。&/p&&h3&3）Julius&/h3&&p&Julius是一个高性能、双通道的大词汇量连续语音识别（large vocabulary continues speech recognition，LVCSR）的开源项目，适合于广大的研究人员和开发人员。它使用3-gram及上下文相关的HMM，在当前的PC机上能够实现实时的语音识别，单词量达到60k个。&/p&&h3&4）RWTH ASR&/h3&&p&该工具箱包含最新的自动语音识别技术的算法实现，它由 RWTH Aachen 大学的Human Language Technology and Pattern Recognition Group 开发。RWTH ASR工具箱包括声学模型的构建、解析器等重要部分，还包括说话人自适应组件、说话人自适应训练组件、非监督训练组件、个性化训练和单词词根处理组件等。&/p&&h3&5）其他&/h3&&p&上面提到的开源工具箱主要都是用于语音识别的，其他的开源语音识别项目还有Kaldi 、simon 、iATROS-speech 、SHoUT 、 Zanzibar OpenIVR 等。&/p&&br&&p&以上内容摘抄自本人博文，更详细的介绍参见该文&/p&
语音识别开发平台有很多，具体总结如下：（更详细的介绍参见本人的博文：） 1.商业化的语音交互平台1)微软Speech API 微软的Speech API（简称为SAPI）是微软推出的包含语音识别（SR）和语音合成（SS）引擎的应用编程接口…
&b&闹钟&/b&。方便很多，不需要单独设置，比如【在工作日八点叫我】&br&&br&&br&&b&日历&/b&。随时记，比如【今年春节steam促销，记得提醒我】&br&&br&&b&时间&/b&。天气冷不想掏手机，用耳机问一句【现在几点】真心方便。&br&&br&&b&天气&/b&。经常用，比大部分天气软件都好，【今天多少度？】【明天下雨吗】都挺实用&br&&br&&b&开App&/b&。手机大概有上百个app，经常找app找的心累，一句【打开知乎】完事。&br&&br&&b&放音乐&/b&。突然想听一首歌，在歌曲列表找找找真心麻烦，直接【来首sugar】就放省事&br&&br&&br&&br&———————————————————&br&&br&以上都是个人经常用的几项，感觉挺方便的，希望大家用的开心～～～&br&(=??｀)人(??｀=)～
闹钟。方便很多，不需要单独设置，比如【在工作日八点叫我】日历。随时记，比如【今年春节steam促销，记得提醒我】时间。天气冷不想掏手机，用耳机问一句【现在几点】真心方便。天气。经常用，比大部分天气软件都好，【今天多少度？】【明天下雨吗】都挺…
嗯，说一个刚刚发现的。。。&br&&figure&&img data-rawheight=&861& data-rawwidth=&1635& src=&https://pic4.zhimg.com/aa3f917dae07aa27d3ca150f_b.png& class=&origin_image zh-lightbox-thumb& width=&1635& data-original=&https://pic4.zhimg.com/aa3f917dae07aa27d3ca150f_r.png&&&/figure&&br&如我现在窗口焦点在fonts文件夹上，以往我要翻动浏览器页面的话，先要点一下浏览器的窗口再滑动滚轮，现在只要把鼠标移过去，不用点，直接滚动就可以了=。=&br&有什么用呢？&br&用处大了啊，键盘焦点没有移动，下层的窗口也没有提升就切换了鼠标焦点。&br&假设这样一种场景，浏览器上开着操作说明，同时另一个窗口是你在使用的软件。&br&这样不用点来点去就可以跟着整个说明做完操作了~&br&&b&尤其是当另一个窗口特别小，浏览器窗口一提升整个就盖住了的时候！&br&&/b&顺便一提，我最开始实在Ubuntu的Unity上发现这个功能的，当时就想着Win要是也有就好了~
嗯，说一个刚刚发现的。。。如我现在窗口焦点在fonts文件夹上，以往我要翻动浏览器页面的话，先要点一下浏览器的窗口再滑动滚轮，现在只要把鼠标移过去，不用点，直接滚动就可以了=。= 有什么用呢？用处大了啊，键盘焦点没有移动，下层的窗口也没有提升就…
如果技术只对现有产品起到优化作用，则依然是大企业的囊中之物。一般称之为改进性技术&br&如果技术能形成新的市场和产品形态，创业者机会更多，比如图形界面对于dos界面，触摸屏对于键盘。一般称之为破坏性技术&br&&br&&b&总的来说，语音识别和语义分析属于破坏性的技术，小身段的创业者更有机会成功。&/b&&br&&b&1 创新需要从小处入手，而非开始就大而全。&/b&&br&
最典型的失败案例是摩托罗拉铱星计划，&让用户从世界上任何地方都可以打电话&。高超的技术、全新的卫星系统，但从产品构想到推出耗时11年，再加上超高的价格以及移动通信的崛起，导致它远远脱离市场需求。&br&
突破性创新产品的初期市场很小，无法满足大公司的收入和增长要求，这决定了大公司流程和价值观不会选择创新为主业务，被安排做创新产品的人也会抵触它。小型创业团队的灵活性和生存压力更适配于初期市场的规模。&br&&b&
微软、IBM等大公司在语音上已投入很多年，还没可见的产出，不能因此说小公司没有资源更搞不定。正是因为大公司从技术出发在做凭空想象的大东西，而小公司一般能从小的市场点切入，能够根据市场反馈持续调整，市场才是最好的驱动引擎，市场会带着小公司走向成功。&/b&&br&&br&&b&2 蛋糕不只是一家或几家公司的&/b&。&br&
语音是基础性的创新，会有一家或几家大公司积累了平台性的数据和技术，但最直接并给用户最多价值的，是各种各样的应用，它们是生态系统中最有影响力的部分。&b&&br&&/b&&br&&b&语音技术未来发展可想的几个阶段：&/b&&br&&b&1 作为文字输入的语音识别&/b&。&br&&b&
&/b&&b&属于改进性。&/b&从碎碎念的微博，到长篇大论的知乎、博客，都不会因为语音识别方便输入而产生全新的产品形态。会让微博更随意，随便喊一嗓子就能发，但很难催生新的产品类型。&br&&br&2 &b&作为交互模式的&/b&&b&语音识别&/b&&b&。&/b&&br&&b&是破坏性的。&/b&说话不需物理运动，解放了人的双手。相对于键盘，甚至触屏，都有明显的优势，是更懒、更自然、更简单的交互方式。比如以下场景：家里有个支持语音识别的控制中心，人懒洋洋的躺在沙发上，想看电视，喊一声，开空调，喊一声，随性所欲。这比到处找各种遥控器舒服太多。再往远一点看，当人工智能成熟，机器人普及的时候，语音是最理想的交互方式，我们像和家人一样和机器人交谈。&br&&br&&b&3 语义分析&/b&&br&&b&
毫无疑问，是完全颠覆的破坏性技术。&/b&&br&
让机器听懂人的语言，是只能不断接近的梦想。需要持续的积累大量的数据，数据多一点，优化多一点。&br&
一开始就以完全智能为目标的创新不靠谱。垂直领域、具体场景和局部的创新，会不断涌现，比如今天天气好不好，现在几点钟，哪个饭店好吃。。。。
如果技术只对现有产品起到优化作用，则依然是大企业的囊中之物。一般称之为改进性技术如果技术能形成新的市场和产品形态，创业者机会更多，比如图形界面对于dos界面，触摸屏对于键盘。一般称之为破坏性技术总的来说，语音识别和语义分析属于破坏性的技术…
&p&首先推荐我的知乎 Live：&a href=&https://www.zhihu.com/lives/963712& class=&internal&&语音识别技术的前世今生&/a&。这是对语音识别技术 30 年来发展的一份综述，听完后你就会对语音识别的整体框架有个了解。Live 的幻灯片可以在&a href=&//link.zhihu.com/?target=https%3A//zhihu-live.zhimg.com/0af15bfda98f5885ffb509acd470b0fa& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&这里&i class=&icon-external&&&/i&&/a&下载。&/p&&p&&br&&/p&&p&在之后的学习过程中，你可以不时地问自己下面的问题，逐步加深理解：&/p&&ul&&li&语音识别系统一般由哪些模块组成？（答案见下图）各个模块的作用是什么？&/li&&/ul&&figure&&img src=&https://pic1.zhimg.com/v2-bedbc1fceaeab4c224ef4_b.png& data-rawwidth=&624& data-rawheight=&174& class=&origin_image zh-lightbox-thumb& width=&624& data-original=&https://pic1.zhimg.com/v2-bedbc1fceaeab4c224ef4_r.png&&&/figure&&ul&&li&特征提取模块是怎样保留语音信号中对语音识别有用的信息，抑制无关信息的？&/li&&li&声学模型是怎样在语音特征和音素之间建立映射的？&/li&&li&语言模型是怎样知道什么样的句子「像话」，什么样的句子「不像话」的？&/li&&li&解码器如何在海量的句子中快速地找到比较好的识别结果？&/li&&li&最近几年兴起的神经网络，颠覆了上面框图中的哪些模块？是怎么做到的？&/li&&/ul&&p&&br&&/p&&p&对整体框架有了了解之后，就可以去学习细节了。经典的教科书包括：&/p&&ul&&li&Xuedong Huang, Alex Acero, Hsiao-wuen Hon, Spoken Language Processing&/li&&li&Lawrence Rabiner, Biing-Hwang Juang, Fundamentals of Speech Recognition&/li&&li&Dan jurafsky and James H. Martin, Speech and Language Processing&/li&&/ul&&p&不过这些书都比较老了，只讲了「前世」的技术，并没涉及到「今生」的神经网络。神经网络技术目前仍在飞快的迭代中，所以并不容易找到一本与时俱进的教科书。&/p&&p&另外有两篇经典论文：&/p&&ul&&li&L. R. Rabiner, “A tutorial on hidden Markov models and selected applications in speech recognition,” Proceedings of the IEEE, vol. 77, no. 2, pp. 257–286, 1989.&/li&&li&A. Graves, S. Fern?andez, F. Gomez, and J. Schmidhuber, “Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks,” in International Conference on Machine Learning (ICML), ACM, 2006, pp. 369–376.&/li&&/ul&&p&第一篇讲的是「前世」技术中的骨架 HMM，后一篇讲的是「今生」技术中的 CTC，当你学到这二者的时候值得一看。&/p&&p&&br&&/p&&p&如果你要自己上手搭语音识别系统，可以从 &a href=&//link.zhihu.com/?target=https%3A//github.com/srvk/eesen& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&EESEN&i class=&icon-external&&&/i&&/a& 这个工具包中的示例出发，慢慢修改。比如 TEDLIUM 那个示例就是不错的。&/p&
首先推荐我的知乎 Live：。这是对语音识别技术 30 年来发展的一份综述，听完后你就会对语音识别的整体框架有个了解。Live 的幻灯片可以在下载。在之后的学习过程中，你可以不时地问自己下面的问题，逐步加深理解：语音识别系统…
&p&人工智能培训机构&/p&
人工智能培训机构
古娜拉黑暗之神！
古娜拉黑暗之神！
第一个答案很不错.我就补充几点,其实要理解上面全部笑点,主要要知道他们的一些俚语和典型的幽默句式. 下面的解释不是来自我一个人的,而是得到了旁边几个老美同事的帮助.&br&&br& today I was asked to warm up the crowd which should be easy since the high will be 75 degrees.&br&--- 这个比较简单, Warm up是开场的意思.比如足球赛开始之前,球员在场上热身叫warm up. 但是Siri这里使用其原意&暖和温度&,还特地调出Temperature app,查出今天温度75F. 因为今天温度还算比较高.所以它说warm up起来不是特别难.&br&&br& San Fran – the ATM of Silicon Valley ... I found 396 Venture Capital firms fairly close to you.&br&--- 调侃SF的风投特别多,同时还专门调出搜索程序搜附近的VC firms.&br&&br&how many developers does it take to change a light bulb&br&--- How many XXXs does it take to change a light bulb?
这是美国典型的幽默句式. 这话并不是要问换灯泡到底需要多少人力,而是引出每一个行业或者领域的人,他们所拥有的独到的说话和做事风格. 看这个: &a href=&//link.zhihu.com/?target=http%3A//en.wikipedia.org/wiki/Lightbulb_joke& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&en.wikipedia.org/wiki/L&/span&&span class=&invisible&&ightbulb_joke&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&&br&&br&I see lots of familiar interfaces in the crowd. Looks like Instagram finally accepted Facebook’s friend request.&br&--- Interface 有程序里面的编程借口的意思,属于非常geeky的话. 后面Instagram accept Facebook's friend request这个不言而喻.&br&&br&Hey, any of you guys been working with Ice Cream Sandwich or Jelly Bean? Who’s making up these code names? Ben & Jerry’s?.&br&--- Google Android的codename全部选取食物名,从A开头,一直延续下去. 具体参考这个链接里面的第一个表: &a href=&//link.zhihu.com/?target=http%3A//source.android.com/source/build-numbers.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&source.android.com/sour&/span&&span class=&invisible&&ce/build-numbers.html&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a&
用的最多的2.3是Gingerbread, 市面上最新的是 ice cream sandwich (4.0),下一代叫 jelly bean. 另外在Google Mountain View总部的Android大楼外面就放有之前版本名所代表的点心的巨像: &figure&&img src=&https://pic2.zhimg.com/ac3c3c721d_b.jpg& class=&content_image&&&/figure&(上图: Cupcake, Froyo, Ice cream sandwich, Honeycomb, Android机器人, Donut)&br&最后Ben & Jerry是美国一个冰激凌的chain store. Apple这里故意在嘲笑Android的命名怪异和花里胡哨.&br&&br&And speaking of dinner, after the show, if you’re looking to paint the town red, I found a number of Sushi restaurants whose reviews mention $2 Sake bombs fairly close to you. The guys at Yelp know what I’m talking about.&br&--- &a href=&http://www.zhihu.com/question/& class=&internal&&&span class=&invisible&&http://www.&/span&&span class=&visible&&zhihu.com/question/2029&/span&&span class=&invisible&&9099&/span&&span class=&ellipsis&&&/span&&/a&&br&&br&Now I want to say something straight from the CPU; iPad, can you slow it down a bit? &br&--- 这个通过老美的典型句式,由 say something straight from my heart改编而来.显示Siri其geek的一面;&br&&br&完~
第一个答案很不错.我就补充几点,其实要理解上面全部笑点,主要要知道他们的一些俚语和典型的幽默句式. 下面的解释不是来自我一个人的,而是得到了旁边几个老美同事的帮助. today I was asked to warm up the crowd which should be easy since the high will …
&p&智能音箱的本质其实是“智能助理”，音箱这个硬件只是一种载体形式。&/p&&p&“智能助理”=“智能”+“助理”，“智能”表现的是AI的技术深度，而“助理”表现在体验层次上，是服务的质量。两者相较，“智能”是关键吗？其实恰恰相反，做好“助理”才是重点，“智能”是为助理“&b&更好地理解用户需求&/b&”和“&b&提供有价值的服务&/b&”的，但服务的深度所需要的远远不只是技术的深度，智能只是其中一个维度，纯有智能不过是空中楼阁。&/p&&p&而目前的智能音箱，是否在做产品时颠倒了头脚？是否真正在从助理层面思考，在用“心”做产品？&/p&&p&&b&此次，竹间智能产品经理 &/b&&a class=&member_mention& href=&//www.zhihu.com/people/2d0f6fd84d56b0080ed53ecb90a8d188& data-hash=&2d0f6fd84d56b0080ed53ecb90a8d188& data-hovercard=&p$b$2d0f6fd84d56b0080ed53ecb90a8d188&&@李明骏&/a& &b&，将用算法式的产品思维来剖析智能音箱这款产品。&/b&通过有趣且大道至简的算法视角来看一些通用性的规律，从而帮助我们对这款产品有更深的理解。希望这个思路可以帮助大家更直接地去分析每一款已经面世或即将面世的智能音箱，从Echo，Google Assistant，HomePod，到天猫精灵、小爱同学等。&br&&/p&&h2&整体的算法如下&/h2&&p&&br&&/p&&p&&b&因为“智能”是“助理”的能力素质维度之一，是包含关系，下面用约等号。&/b&&/p&&p&&i&“ 优秀的智能助理 ” ≈ “ 优秀的助理 ” &/i&&/p&&p&而&i&“ 优秀的助理 ” = “ 优秀 ” + “ 助理 ”&/i&&/p&&p&那么下面需要解释&b&“优秀”&/b&和&b&“助理”&/b&这两个词。&/p&&p&&br&&/p&&h2&透彻理解“助理”&/h2&&p&&br&&/p&&p&解释优秀之前，首先来理解一下“助理”这个概念。&/p&&p&&b&算法的本质是对世界规律的抽取，越底层越深刻，因此第一步就是抽取现实世界中“助理”的规律。&/b&&/p&&p&&br&&/p&&p&在思考这个复杂的问题前，不妨把复杂问题具体化。可以分解为以下几个问题，问题之间逐步递进：&/p&&p&问一：哪些人会请助理？以及这些人愿意承担的价格？&/p&&p&问二：他们请助理的动机是什么？&/p&&p&问三：助理的工作内容、流程是什么？&/p&&p&问四：一个优秀的助理需要哪些能力和素质？&/p&&p&问五：助理的工作做到什么地步会让人基本满意？&/p&&p&问六：做到什么会让人惊喜？&/p&&p&&br&&/p&&p&&b&回答完这些问题，80%的规律基本就可以抽取出了。&/b&（其中部分问题的答案会穿插在本文中，也欢迎大家在评论区表达自己的看法，一起讨论。）&/p&&p&&br&&/p&&p&&b&首先，“助理”的工作流程是什么？&/b&&/p&&p&简单来说，就是搞清楚助理的老板想要什么，然后把事情办好。所以有：&/p&&p&&i&“ 助理 ” = “ 理解用户的需求 ” + “ 提供有价值的服务 ”&/i&&/p&&p&&i&（理解用户的需求是提供有价值的服务的前置条件）&/i&&/p&&p&&br&&/p&&p&&b&然后，评价一个助理的优秀程度的方式可以由上被推导出来：&/b&理解我需求的程度和你知道后能为我提供多大价值的服务。&/p&&p&&i&“ 助理优秀的程度 ” = “ 用户的需求 ” 的 “ 理解程度 ” + “ 提供服务 ” 的 “ 价值大小 ”&/i&&/p&&p&&br&&/p&&p&&b&接着，对于助理来说，理解用户需求的流程是什么？&/b&&/p&&p&首先可以肯定的是需求理解是一个交互的过程，而对于“音箱”这个载体来说，交互的方式是“语音”，所以这里的：&/p&&p&&i&“ 助理 ” ≈ “ 语音助理 ”&/i&&/p&&p&&br&&/p&&p&&b&那么一个语音助理理解用户需求的交互过程是怎样的？&/b&&/p&&p&首先第一步是要听清用户说了什么，第二步是理解用户说了什么，所以：&/p&&p&&i&语音助理　“ 理解程度 ” = “ 听清 ” 的程度 &/i& &i&+ “ 听懂 ” 的程度&/i&&/p&&p&&br&&/p&&p&&b&怎么定义听清？&/b&&/p&&p&听清涉及到几个方面，隔多远能听见，不同方向是不是都可以听见，说多大声才能听见，噪音有多大还能听见，能不能识别出特定的人，多人对话时听谁的，夹杂方言是不是能听懂等。&/p&&p&很明显，这些都是生活中常常会遇到的事情，因为生活场景是复杂的。但其实归纳到技术上就是语音识别ＡＳＲ（自动语音识别技术）＋远场拾音，即：&/p&&p&&i&“ 听清 ” 的程度　＝　“ 语音识别系统的质量 ”　＋ “　远场拾音的质量　”&/i&&/p&&p&&br&&/p&&p&而语音识别系统的性能大致取决于以下4类因素：&/p&&p&1. 识别词汇表的大小和语音的复杂性；&/p&&p&2. 语音信号的质量；&/p&&p&3. 单个说话人还是多说话人；&/p&&p&4. 硬件（如麦克风阵列）&/p&&p&&br&&/p&&p&具体到生活场景中时，不必那么复杂，基本上保证“&b&听写的准确度&/b&”就可以了。&/p&&p&&i&“　语音识别系统的质量　”　＝　“　听写的准确度　”&/i&&/p&&p&&i&“　听写的准确度　”　＝　语音识别算法的　“　准确率　”&/i&&/p&&p&&br&&/p&&p&而“&b&远场拾音的质量&/b&”&b&也可以简化，也就是能适应多复杂的环境，&/b&即&/p&&p&&i&“　远场拾音的质量　”　＝　“　适应场景的广泛度　”&/i&&/p&&p&&i&“　适应场景的广泛度　”　＝　硬件上 “　麦克风阵列的质量　”　＋　“　其他技术　”&/i&&/p&&p&&br&&/p&&p&“&b&适应场景的广泛度&/b&”如何理解，这里可以举个例子：&/p&&p&当Alexa在客厅而你在其他不远的房间的时候，你可以以稍大于正常说话的音量和它沟通；&/p&&p&当Alexa开着大音量的歌时，你用正常声音说话它也依然能听得清。&/p&&p&这些都是明显的高场景适应度的例子，让人类在各种环境下都能轻松和它交流。另外补充一个重要的场景体验——“&b&唤醒词&/b&”，相关的参数是“唤醒词长度”、“唤醒后的持续对话时间”以及“误唤醒的程度”。据使用过目前市面上一些智能音箱的用户描述，使用这些音箱时，用户说每一句话前都要重复使用唤醒词，这样智能音箱才能听懂后面的内容。另外，越短的唤醒词使用的难度越大，尤其是中国人更偏向于用二音节的词。但即使是四个字的唤醒词也经常会误唤醒，因此带来不好的用户体验。但为了增强持续对话的能力，减少误唤醒的概率，一些智能音箱依然需要每次都加唤醒词。
&/p&&p&至于听写的准确度，这个就不做解释了，小学大家都经历过听写，很容易理解。&/p&&p&&br&&/p&&p&&b&怎么定义听懂？&/b&&/p&&p&对于“听清”来说，其本质是将语音信息变成了一段符号化的文本。&/p&&p&听清之后就需要听懂，听懂不只是语义上的理解，而是一个相对来说较为复杂且需要交互的过程。听懂是后续服务执行质量的关键和前置条件。&/p&&p&&i&“　听懂的程度　”　＝　“　ＮＬＵ技术水平　”　＋　“　用户模型的利用度 ”&/i&&/p&&p&&br&&/p&&p&这跟我们和人类说话是类似的，需要结合这个人的用户模型（如性格特质，爱好等）读懂对方说话的意图。&/p&&p&拿 Alexa 举例，讲讲&b&实现“听懂”&/b&的流程：&/p&&p&用户：“Alexa，冰箱里啤酒没了，再帮我买一些吧”&/p&&p&Alexa：“好的，还是买你上周买的“青岛啤酒吗”&/p&&p&用户：“是的”&/p&&p&Alexa：“买一箱吗”&/p&&p&用户：“嗯，一箱就够了”&/p&&p&&br&&/p&&p&在这个场景下，你会发现听懂，以及对用户需求的理解不是单向的，而是需要通过交互来实现，通过交互将需求进一步清晰化、准确化。具体流程是这样的：
&/p&&p&&b&①用户说出自己的需要→②助理尝试理解你的意图→③助理通过行为或语言来给用户一个反馈→④用户再通过语言或行为对助手给出反馈→⑤助理再调整自己的行为&/b& &/p&&p&&br&&/p&&p&在上面的例子中，每次这种文本的理解都需要用到“NLU，即自然语言理解”&/p&&p&关于“ＮＬＵ技术水平”（此处只限定在对话中）的理解，即：&/p&&p&&i&“ NLU技术水平 ” = “ 从对话中理解完整意图的能力 ”&/i&&/p&&p&&br&&/p&&p&由此来分析“Alexa，冰箱里啤酒没了，再帮我买一些吧”，对这句话的理解需要抽取出这段文本中的实体、意图。比如，“&b&冰箱&/b&”&b&，“啤酒”&/b&是有意义的实体，“&b&买&/b&”是意图，这个句子完整的意图就是“我要买啤酒”。但这样还不够具化，比如（需补充）什么啤酒，（需补充）数量多少等，对于这些信息的补充，有以下两个主要的方法：&/p&&p&1. 在多轮对话中抽取出所需补全的信息。对于支持多轮对话的交互理解系统，语义引擎不再是无状态的，而是系统更为复杂的，需有对话管理、历史信息存储等模块。（这里有技术上的难度）&/p&&p&2. 从其他地方收集所需数据信息，如在Amazon上的购物记录（这里有获取外部数据的困难）&/p&&p&&br&&/p&&p&当然上面那个例子中，更多的可能是通过语音来反馈，下面再举一个以行为反馈为主的例子：&/p&&p&用户：“Alexa，放点音乐”&/p&&p&Alexa：“好的”，然后随机播放了一首“我的收藏”中的一首歌&/p&&p&用户：“换一首high点的”&/p&&p&Alexa：“好的”，然后根据音乐的标签（如摇滚，轻快等），选了一首它感觉不错的曲子播放&/p&&p&用户：“这首还不错”&/p&&p&Alexa：“好的”然后默默记下了用户的偏好，因此在下次推荐时会更偏好推荐这一类歌曲。&/p&&p&&br&&/p&&p&从这两个例子中我们都会发现，&b&交互的过程中有一个关键点——根据对用户的了解做出相应行为&/b&。&/p&&p&而对用户的了解中，涉及到的是“&b&对用户建模&/b&”的技术，即通过用户在互联网上的各种行为数据或助手与用户的对话记录等建立的一个专属该用户的用户模型。如果没有这个模型就会出现一个问题——每次和用户交流时，都要从零开始理解其需求。没有用户会喜欢一个都相处了一个月，但我叫你去买一杯上次的咖啡，你还一直问我是哪种，还问加不加糖和奶，完全不懂我的喜好，每次都要我费力沟通的助理的。&/p&&p&事实上当用户下达语音指令后，一般而言只有两次对话机会，如果第三次对话还没弄清用户需求，就算失败，因为这样的反复对话对用户来说是非常糟糕的体验。&br&&/p&&p&这里解释一下&b&用户建模&/b&，用户建模的载体一般是图谱数据库，用图谱的方式记录用户的各种属性以及和某些事物之间的关系。比如用户对摇滚乐有狂热的爱好，这就是用户与摇滚乐之间一种关系。这里有用户的属性，如基本信息和近期的历史行为等。&/p&&p&&br&&/p&&p&&i&用户模型的丰富度 = “ 外部数据 ” + “ 内部数据 ”&/i&&/p&&p&内部数据，如：用户主动输入的，通过NLU技术提取的信息等；&/p&&p&外部数据，如：Amazon的购物记录，google搜索记录，facebook好友关系，跨平台的音乐歌单等。&/p&&p&&br&&/p&&p&其中，&b&外部数据是用户模型丰富度的关键。因为外部数据很大程度上能决定理解用户的深度、能对用户做什么以及做到什么程度&/b&，而同时外部数据却是一道真正的壁垒，这也是为什么一些智能助手、智能音箱做不好的原因，拿不到有价值的外部数据，毫无疑问服务就做不深。&/p&&p&当模型信息很丰富，但不会合理使用时，依旧会白费力气。所以建立模型的目的，其实是为了能做出更好的决策。当用户问任何问题时，给出的答案或行为，其本质都是辅助去做决策这件事情。&/p&&p&比如用户需要放音乐，想要做好放什么音乐的决策其实就需要很多信息的支撑。同理，上面说到的买啤酒，有Amazon的购物记录也会比较好操作。&/p&&p&而 &i&用户模型的利用度 = 用户模型信息的丰富度 * 模型中信息的利用方式&/i&&/p&&p&&br&&/p&&h2&&b&如何判断“服务”的质量？&/b&&/h2&&p&&br&&/p&&p&实际上，服务的前置条件除了“听清”和“听懂”外，还有“服务内容的价值”，这里需要的远不止技术这一个维度的能力。&/p&&p&&i&“服务内容的价值”=sum（[能做什么]*[做到什么程度]）&/i&（矩阵乘法）&/p&&p&&br&&/p&&p&比如下面两个题目的结果，哪一个大？&/p&&p&①[1,2,1,1,1,1,1,1,1]*[2,2,1,1,1,1,2,1,2]&/p&&p&② [8,9]*[6,7]&/p&&p&&br&&/p&&p&其实从这个算法就透露了正确的战略方向：做重要的事情，需要把事情做深！比如苹果的智能音箱，其认为音乐是最重要的，所以为了做深这件事，在硬件、服务上都下了很多功夫。Apple的策略大致可以理解为[10,1,1,2...][9,1,2,1...]，实际上看亚马逊echo的几千条评论也会发现，其实音乐是最重要的功能，所以某种程度上，Apple的策略还是比较明智的。&/p&&p&&br&&/p&&p&什么是 &b&[能做什么]&/b&？比如“好看”就是一种价值，这个对于有些用户来说可能比较重要，如果重要程度划分为10档，那么“好看”这个功能的数值可能是8；而很少使用或不痛不痒的功能的数值可能是1或2，一堆不重要的功能形成的就是[1,2,1,1,1,1,1,1,1]。&/p&&p&而 [做到什么程度] 大致可以这么算：&/p&&p&&i&做到什么程度 = 相对省下的时间和精力 + 提供的额外价值&/i&&/p&&p&这个指的是相对于自己做这件事需要花费的时间精力，比如还是买啤酒的例子，我自己做这件事的话，需要登录亚马逊，然后搜索，选择种类，最后下单支付。这一套流程还是有点费时费力，但如果和Alexa沟通几句就解决了，那就是相对省出了很多时间精力。&/p&&p&&br&&/p&&p&&b&提供的额外价值&/b&，指自己做可能获取不到的价值。比如选择自己所需的服务种类时，用户需要买啤酒，智能音箱能够在对话中告诉用户某个产品卖得特别好，评价都很高，问要不要试试，而这个过程就相当于帮用户做了一些人类不擅长但又对其有用的事情，反之，用户自己去判断就比较累。&/p&&p&这里要充分利用机器智能与人类智能的区别，因为价值都是相对的，做人类智能不擅长的事情是一件困难的事情。&/p&&p&&br&&/p&&p&接下来一题，我们可以从中窥到一些产品战略。同样也是比较大小：&/p&&p&①[5,1,1,2,1,2,2，1,1,1,1,3,2,1,1,2......(中间省略100)1,2] * [7,1,3,2,2,3，1,1,2,1,2,3,2,1,3,2........(中间省略100)2,3]&/p&&p&②[8,9,7][9,7,5]&/p&&p&①&②的结果，即做生态的战略，不单打独斗。当长尾服务做得足够多的时候，可以超越头部效应，而把这件事做好的关键同样是——做重要的事情，把事情做深。&/p&&p&&br&&/p&&p&首先是多，这里接入需要足够简单轻松；&/p&&p&第二是做深，这里要共享给合作者的技术和数据要多，有更多更深的权限。&/p&&p&&br&&/p&&p&Amazon在这件事上一直很用心，其在降低合作门槛上很擅长，做企业服务多年，怎么做到简单易用已经不是难事。此外，还积极开放自己技术和数据，积累了大量的合作商，这些合作商就是Amazon的服务壁垒，这是短时间内其他企业无法跨越的。&/p&&p&&br&&/p&&h2&&b&总结&/b&&/h2&&p&&br&&/p&&p&最后汇总一下所有公式。&/p&&p&&br&&/p&&p&“ 优秀的智能助理 ” ≈ “ 优秀的助理 ”&/p&&p&“ 优秀的助理 ” ＝ “ 优秀 ” + “ 助理 ”&/p&&p&“ 助理 ” ＝ “ 理解用户的需求 ” + “ 提供有价值的服务 ”&/p&&p&（理解用户的需求是提供有价值的服务的前置条件）&/p&&p&&br&&/p&&p&“ 助理优秀的程度 ” ＝ “ 用户的需求 ” 的 “ 理解程度 ” + “ 提供服务 ” 的 “ 价值大小 ”&/p&&p&&br&&/p&&p&“ 助理 ” ≈ “ 语音助理 ”
&/p&&p&语音助理“ 理解程度 ” ＝ “ 听清 ”的程度 + “ 听懂 ”的程度　&/p&&p&“ 听清 ”的程度　＝　“ 语音识别系统的质量 ”　＋ “　远场拾音的质量　”&/p&&p&“ 语音识别系统的质量　”　＝　“　听写的准确度　”&/p&&p&“ 远场拾音的质量　”　＝　“　适应场景的广泛度　”&/p&&p&“ 适应场景的广泛度　”　＝　硬件上“　麦克风阵列的质量　”　＋　“　其他技术　”&/p&&p&“　听写的准确度　”　＝　语音识别算法的“　准确率　”&/p&&p&“　听懂的程度　”　＝　“　ＮＬＵ的技术水平　”　＋　“　用户模型的利用度 ”&/p&&p&“ NLU的技术水平 ” = 从对话中理解完整意图的能力 &/p&&p&&br&&/p&&p&用户模型的丰富度 = “ 外部数据 ” + “ 内部数据 ”&/p&&p&用户模型的利用度 = 用户模型信息的丰富度 * 模型中信息的利用方式&/p&&p&&br&&/p&&p&服务内容的价值 = sum（[能做什么]*[做到什么程度]）&/p&&p&做到什么程度 = 相对省下的时间和精力 + 提供的额外价值&/p&&p&&br&&/p&&p&其中大部分公式间有逻辑关系，参数之间也可以带入计算。这里只罗列公式，因为参数的定义和数值大小的判定是相对主观的，在运用中需要case by case。另外有些参数之间是线性相关的，有系统效应。&/p&&p&最后，算法式思维的价值在于用数学的方法指导产品战略，下面就是想办法&b&提升各参数的问题&/b&了。&/p&&p&&br&&/p&&p&以上。&/p&
智能音箱的本质其实是“智能助理”，音箱这个硬件只是一种载体形式。“智能助理”=“智能”+“助理”，“智能”表现的是AI的技术深度，而“助理”表现在体验层次上，是服务的质量。两者相较，“智能”是关键吗？其实恰恰相反，做好“助理”才是重点，“智能…
搞图像识别算法的想要创业，方法和路径与其他技术相比有些不一样。&br&&br&图像识别这个领域长期属于科研人士的领域，工业化的应用相对较少，因此在学术圈和工业界有很大的鸿沟。搞科研的不知道这些技术能做些什么，他们理想的应用场景大多不靠谱。工业界也不了解图像技术，遇到问题也不会想到通过图像算法来解决。楼主提到的这位老师，掌握了很多图像相关技术，并做了很多demo场景，大多都是科研圈里经常讨论的应用场景。基本所有搞图像研究的人都能想到这些应用方向。&br&&br&个人觉得首先要定大方向。然后找合作人，建团队。只是做一点技术外包，太浪费技术了。有两个最常见的大方向，一是2B的整体解决方案，二是2C的移动互联网应用。&br&&br&如果选2B的整体解决方案，相对比较稳定，但发展不会很快。需要找一个公关很强的合伙人，然后一个简单的外包技术团队。产品不是简单的提供技术和接口，要做成一个完整的系统或解决方案，才能卖出价钱。现在很多国企事业单位都有一些项目需要用到图像相关算法技术，价格也不错，关键是能不能谈下来。&br&&br&如果选2C的移动互联网应用，可能发展很快，也可能有很大风险，但只要选定这条路，后面机会还是很多的。同样需要合伙人，需要一个执行力很强的互联网团队，还需要一个启动idea。搞科研的人，自己组团队比较难，打包加入或者合并到一个团队中相对机会多一些，最关键的是转变成互联网思维。&br&&br&对于2C的项目，聚焦很重要，不能搞这么多方向，选一个点做到极致，市面上NO.1的水平。不要选那种大而牛x的项目，也不要选得太科研前沿，一定要简单实用。科研上很成熟的技术，到了实际场景中大多数都会挂掉，还是要根据实战情况来定制。&br&&br&前面有人提到过名片全能王，就是一个非常好的例子。看起来简单的图像矫正和文字识别，可以做成上亿的用户量。产品还是以图像识别技术为核心，但他们做到了业内最好的水平。其实技术也不难，但需要全力以赴做这一个点到极致。&br&&br&千万别去做什么自然场景物体识别搜索一类的大方向，一是大公司都在盯着，二是大公司投入那么多都还没做出来呢。垂直的小方向，几十亿的蛋糕，那些大公司也看不起，小公司做不成，但你做成了足够你吃了。&br&&br&前面还有匿名用户表示悲观，他看到的和那些整天在屋子里搞科研的博士看到的一样多，很多科研人士对用户需求和工业界发展了解太少，在那些谁都能想到的理想场景中当然只能看到绝望。如果想创业，就要走出去，和各种各样的人打交道，要行动起来，在实战中才能找到突破点。&br&&br&移动互联网给了图像算法大量的新的应用场景，几年后回头看，你会发现很多机会只是现在没发现。
搞图像识别算法的想要创业，方法和路径与其他技术相比有些不一样。图像识别这个领域长期属于科研人士的领域，工业化的应用相对较少，因此在学术圈和工业界有很大的鸿沟。搞科研的不知道这些技术能做些什么，他们理想的应用场景大多不靠谱。工业界也不了解…
不会。Cortana负责干活，小冰负责捣蛋。
不会。Cortana负责干活，小冰负责捣蛋。
这个问题很有趣，（虚心好学的）小编特意向公司的资深老员(si)工(ji)请教了下。故事还要从科大讯飞的创立说起，20世纪末，中国加快了拥抱全球化、信息化的脚步。在中科大语音实验室从事科研的研二学生刘庆峰决定自主创业，这个决定不但得到导师的支持、师兄师弟们的响应，同时中科大BBS八个版主中的六个都纷纷加盟，最终组成了&b&18人的创业团队&/b&。日，科大讯飞正式宣布创立。&/p&&p&
公司中文名称&b&科大讯飞&/b&，因为我们的创业团队是从中科大孵化出来的。至于英文名称嘛，也是和中文名对应的。科大讯飞创业初期的使命，是以人为本，创造信息时代信息获取和沟通的最佳方式。那时候科大讯飞手里有不少语音技术，最牛的技术成果是“168信息台”——通过语音合成把文字读出来，通过电话能听，让信息无所不在。所以讯飞早期的名字叫information fly——ifly，我们的出发点就是让信息时代信息获取沟通最方便。&/p&&p&
后期我们对英文名赋予了更加深层次的内涵，将公司所属的行业和企业文化结合在了一起。&b& iFLYTEK&/b& ——由“&b&i&/b&—information 信息，&b&i&/b&—我”、“&b&FLY&/b&—飞翔”、 “&b&TEK&/b&—technology&br&科技”三部分构成； “iFLY”既寓意“讯息飞扬、无处不在”，也寓意着“我要飞得更高”，体现科大讯飞“成就员工理想创造社会价值”的经营理念的精髓。这就是科大讯飞英文名称的由来啦。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-6ebaff86ebf248ff96f0_b.png& data-rawwidth=&1570& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&1570& data-original=&https://pic1.zhimg.com/v2-6ebaff86ebf248ff96f0_r.png&&&/figure&&p&&/p&
这个问题很有趣，（虚心好学的）小编特意向公司的资深老员(si)工(ji)请教了下。故事还要从科大讯飞的创立说起，20世纪末，中国加快了拥抱全球化、信息化的脚步。在中科大语音实验室从事科研的研二学生刘庆峰决定自主创业，这个决定不但得到导师的支持、师兄…
已有帐号？
无法登录？
社交帐号登录

语音识别用什么硬件是靠硬件还是软件

我要回帖

更多关于语音识别成文字软件的文章

随机推荐

语音识别用什么硬件是靠硬件还是软件

我要回帖

更多关于 语音识别成文字软件 的文章

随机推荐

更多关于语音识别成文字软件的文章