胡郁:人工智能的发展未来与创业
作者:胡郁:科大讯飞执行总裁
胡郁,中国人工智能学会副理事长,科大讯飞创始人之一,现任科大讯飞执行总裁,消费者 BG 总裁,分管公司核心研发平台,负责主持公司语音合成、语音识别、语音评测、自然语言理解等智能语音及语言核心技术的研究工作。荣获 2016 年度十大“科技创新人物”。
以下内容,根据胡郁在 2017 年小饭桌人工智能创业班上的主题演讲所整理:
人工智能的前世今生
人工智能这一话题,最早可以回溯到1946 年世界上第一台电子计算机 ENIAC 的诞生。ENIAC 产生以后,很多计算机科学家对于计算机将来能够代替人类做什么事情有很多联想,其中最著名的一个人是图灵,他在 1950 年左右在人工智能领域进行了很多的探讨,并且提出了著名的“图灵测试”。而“人工智能”一词真正被提出来,是在 1956 年Dartmouth 的会议上,由四位图灵奖得主、信息论创始人和一位诺贝尔奖得主一起将“人工智能”定义出来,包括明斯基、西蒙、麦卡塞等人,这次会议也被公认为人工智能研究的出生典礼。
人工智能与机器人的关系在今天看来,“机器人”一词出现更早,1920 年就第一次出现了 Robot 这个词,原本是蒸汽机械时代出现的东西,主要基于机械原理,跟计算机数字化、数学没有什么关系;但在表现形式上有所不同:比如想要开家里二楼的灯,如果通过人工智能,只需要对着系统说一句,系统就会从后台对语音指令进行分析并开灯;如果是机器人,则需要爬到二楼去把灯打开。正本清源,人工智能 (Artificial Intelligence) 是指,能够和人一样进行感知、认知、决策、执行的人工程序或系统。然而,人工智能发展的 60 年不是一帆风顺的,起起伏伏共经历了三次浪潮。
(1)1970 年第一次黄金期。自从Dartmouth 会议以后,人们陆续发明了第一款感知神经网络软件和聊天软件,那时大家都惊呼“人工智能来了,再过十年机器要超越人类了”。不过,很快到了 70 年代后期,人们发现过去的理论和模型,只能解决一些非常简单的问题,很快人工智能进入了第一次的冬天。
(2)1990 年第二次黄金期。随着1982 年 Hopfield 神经网络和 BP 训练算法的提出,大家发现人工智能的春天又来了。 80 年代又兴起一波人工智能的热潮,包括语音识别、语音翻译以及日本提出的第五代计算机。不过,到了 90 年代后期,人们发现这种东西离我们的实际生活还很遥远。比如 IBM 在 90 年代时提出了一款语音听写的软件叫 IBM Viavoice,在演示当中效果不错,但是真正用时却很难使用。因此,在 2000 年左右第二次人工智能的浪潮又淹没了。
(3)现在到了人工智能真正爆发的前夜。随着 2006 年 Hinton 提出的深度学习技术,以及在图像、语音识别和其他领域内取得的一些成功,大家认为经过了两次起伏,人工智能开始进入了真正爆发的前夜。总之,就国内外人工智能公司这么多年的发展来看,使命是内在的,阶段性目标是变化的。
人工智能何时能到来?
在我看来,人工智能时代的到来离不开人机交互模式的变革。可以看到,自 60 年代至今,IT 产业已经历硬件、软件、互联网、移动互联网与人工智能这五大浪潮,当前已进入物联网产业万物互联的时代。在无屏、移动、远场状态下,以语音为主,键盘、触摸等为辅的人机交互时代正在到来。目前主要面临两种交互:一种是只需要语音即可,比如蓝牙音箱、手环等,语音之外,不需要看到任何信息;另一种是语音+图像,比如电视上的语音交互、手机等。在这种情况下,触摸交互的学术名词应该叫做强视觉呈现的触摸交互;而语音作为人机交互最自然的方式,将有效促进人工智能与各行业的结合,让人工智能更容易进入大家的生活。除了语音交互,科大讯飞也在研究人脸识别技术,其特色是可以将人脸识别与声纹识别结合在一起,将声音与图片混合,来做活性检测。
由此,人工智能也将进入“智能 +”的时代,人工智能与各个行业的深入结合蕴含着巨大的机会。除了交互,人工智能还可以用在教育、医疗、智慧城市、出行、司法、安全、金融等众多领域;同时,它在各个行业里可以做一个最简单的事情:就是替代人工。在未来的 10 年,人工智能会像技术的服务一样,进入到我们的生活当中,每个人都将离不开。
那么人工智能如何得以实现?在这里,我将人工智能的演进发展分成三个阶段:计算智能(能存会算)、感知智能(能听会说,能看会认)和认知智能(能理解会思考)。计算智能就是计算机与人类比存储、比记忆,在此方面已经远远超过人类了。不过,在感知层面,计算机在语音、图像识别等方面与人类还有较大差距,让计算机真正能理解、会思考、进行自我学习,还是很欠缺的。只有实现认知智能的突破,AI 才能部分取代脑力劳动。
人工智能与创业
2016 年,人工智能产业得到了长足的发展,收获了不少成功的案例。这里,我认为至少有三个因素促进了人工智能在产业界的成功:深度神经网络、大数据以及涟漪效应。
(1)深度神经网络。其模型和算法相对于传统的方法,有着本质的不同;虽然它与我们人类的神经网络相比,还有很多不足,但是确实在架构和描述方面有其强大之处。
(2)大数据。随着移动互联网的迅猛发展,数据每天都是以指数级增加:通过手机、微信等工具和软件,人们可以随时随地把视觉、听觉上的这些数据轻松地传到网上,汇聚起来形成大数据。
(3)涟漪效应。随着移动互联网的发展,各种软件、各种设备接触用户的门槛极大地降低了。例如,当一款新的 APP 找到第一批用户时,他们的使用行为和个人数据就被后台记录下来,开发者再对这种行为和记录进行迭代改进;当再把 APP投向第二批用户时,软件的性能已经比第一代产品有了较大提升,这就是涟漪效应。
可以说,涟漪效应推动了语音辨识与图片识别的发展,特别是语音识别的实用化,更是得益于“涟漪效应”。科大讯飞在 2010 年推出语音识别产品时,识别率只有 60% 左右,刚开始大家都觉得很难用,但是有一批尝鲜的用户。随着技术的迭代、更新,以及数据持续的迭代,如今讯飞语音识别率已经提高到 95% 以上,达到了完全实用的状态。图像识别技术也同样如此,ImageNet 图像识别任务在 2012 年时错误率高达 26.2%,但是到 2015 年底已经降到了 3.57%。基本上可以说,图像识别技术的发展使得我们只要通过一个摄像头,就能将家中的各种物体很轻易地分辨出来。
因此,可以得出两点结论:深度神经网络与大数据的结合已成为当前主流路径;而基于互联网和移动互联网的“研究—工程—产品—用户”的闭环优化加速了产品迭代优化的进程。
当然,对于人工智能领域的创业者来说,产品创新、系统创新以及商业模式的创新也都是非常重要的。从技术层面看,产品创新与系统创新是相对立存在的,产品创新可以是一些微创新,而系统创新所需的资金和时间耗费都很大,从没有到开始立项,到最后商用需要 15~20 年,基本上创业者一辈子只能做出一个。从公司竞争角度看,现在的人工智能公司竞争不是单独两个公司,而是生态系统的竞争。比如创业公司很难独立把人工智能做好,于是各大公司都要做人工智能平台,包括科大讯飞的语音开放平台,现在已有 23 万开发者,每天服务 30~35 亿次,连接的数目达 90 多亿。
同时,在这个过程中,商业模式的创新非常重要,即好的技术创新一定要配合好的商业模式创新。高科技企业的早期市场和主流市场之间存在着一条巨大的“鸿沟”,能否顺利跨越鸿沟并进入主流市场,成功赢得实用主义者的支持,就决定了一项高科技产品的成败。破坏性创新之父——克里斯坦森提出:“大公司卓越有效的管理对于延续性创新的成功具有决定性的作用,而破坏式创新能够让创业公司和小公司拥有颠覆现有产业链的能力!”
最后,我想给创业者提点个人建议:去玩儿的事业一定是你真心喜欢的事情,如果你去玩儿还不选你喜欢的事情,我想你一定是神经病;去玩儿的事业,一定要跟你喜欢的人一起去做,玩耍的过程比结果更重要。谋事在人成事在天,能成为马云和马化腾是历史的必然,但成为这两个具体的人一定有很多未然的因素;改变你能改变的,接受你不能改变的。所以,我觉得人工智能创业不管是做系统创新,还是做产品创新、微创新,我们要以这样的心态,真正去享受到我们生活中的每一个小细节,同时要有使命感与宏伟蓝图!
睿信方略坚持“注重实效 实现卓越”的服务理念,为各级政府、企事业单位提供定制化课程、政策解读、课题调研、干部培训、邀请国家各部委专家学者进行授课等专业化服务。
睿信方略的核心优势:通过定制化课程专注于为客户提供系统培训与咨询业务解决方案。
我们和客户一起,通过对学习过程中的问题不断改进,帮助客户实现既定学习目标与学习能力的持续、稳定、健康的提升。
地 址:北京市海淀区复兴路17号国海广场D座27层
电 话:010-59706310
传 真:010-59706315
值班电话:010-53354778
邮 箱:amc@amcorg.org.cn
免责声明:本网站所刊登的文章、数据版权均归原作者所有,不代表本网站观点,若有疑义,请与睿信方略办公室联系。