就在今天,科大讯飞公司举办了一场 “AI复始,万物更新”的主题科技盛会,举办地选在高大上的北京国家会议中心。科大讯飞本次年度发布会被喻为“中国人工智能元年”的收官之作,接连发布了建立在全新语音交互基础上的人工智能时代的人机交互界面——AIUI,面向文字工作者的录音宝、听见录音笔以及讯飞听见网组合式新品,以及展示在教育方面的新成果智学网、E听说等ToC端的产品,并阐述了“讯飞超脑”2.0版的科研成果。可以说,整场发布会是中国人工智能领域的风向标。
在发布产品前,科大讯飞董事长刘庆峰解释了当下火热的“人工智能”是什么?人工智能让机器具备像人一样的智能,应该说是人类在科技和产业界最伟大的梦想之一。而要把这个梦想照进现实除了有激情有坚定不移的长期的激情坚守之外,还需要脚踏实地一步一个脚印踏踏实实的科技创新,和与之相匹配的各个阶段令人尖叫的产品。
随着技术不断进步,2015年12月科大讯飞讯飞语音云平台上的日访问量已超10亿人次之多。仅仅一款讯飞输入法就有 2.8亿用户,每天有5000万人在使用。现在越来越多的输入法,越来越多的移动App工具都在使用科大讯飞的语音技术。那么在输入的同时,很多的朋友都在问,讯飞输入法已经做到了95%的准确率,甚至达到98%,能不能在这样的一个大会的过程中、在老师讲课的讲堂上能够同步把语音也给转成文字,便于事后检索与学习。此时,刘庆峰就为我们展示了第一个惊喜,左右两边的大屏幕正同步实时转写今天的全程演讲。
当年,麦卡锡第一个提出了人工智能的概念,使AI成为了人工智能行业的名称,而且发布了第一个人工智能的系统语言。在此基础上另外一位计算机大师图灵奖获得者明斯基,他明确提出了一套算法,能够证明第一代神经网络到底能够干哪些事情,又有什么样的缺陷。还有两位大师在人类历史上可以说非常耀眼的一个跨学科专家,既获得诺贝尔奖也获得了图灵奖的西蒙,信息论的创始人也是现在通讯技术的奠基人香农。就是这些专家从计算机,从数学,从经济学,从通讯,从信息论的角度联合的产业跨界,共同的创新,才推出了人工智能的横空出世。
一直到2006年深度学习的概念被正式提出来,首次证明用这种方法可以进行大规模深度神经网络的学习。学习能力有了之后,一系列的算法包括深度神经网络方面的卷积神经网络、递归神经网络等等办法,不断地在语音合成语音识别方面取得突破。科大讯飞认为人工智能发展有一条必由之路——由语音和语言为入口的认知智能的革命。
通过讯飞技术的进步可以看到,在万物互联时代,什么叫做真正的能够实现人机交互?第一个就是远场降噪,第二个方言识别,第三全双工,随时随地在听,第四个自动纠错,主动纠错,你可以打断它,然后多轮对话,上下文相关。只有这些都具备,才是万物互联时代真正的人机语音交互系统。所以今天科大讯飞首先发布全新的人机语音交互界面。
进一步以语音为主把图像把视觉和手写集合起来,打包集成完整的人工智能功能,命名业界首个人工智能的用户交互界面——AIUI。它是一个专门针对人工智能和万物互联的人机交互的专门的界面。具备统一简洁的交互接口,灵活的能力搭配,离线应用和资源,同时具备很强的服务拓展的功能,兼顾普适性和灵敏的调动性。未来最新的人工智能成果,都可以放到AIUI的统一界面下。
另外不可不说的是,讯飞发布的另一款重磅新品组合,讯飞听见网站、讯飞听见录音笔以及录音宝,便于高效的知识管理。大会的产品发布,可以同步的语音自动转写,然后在大屏上显示。讯飞听见,是给声音插上文字的翅膀。因为声音原来是不能看只能听到,现在一小时声音5分钟让你看完。
比较有趣的是,现场科大讯飞还邀请了五位行业持证速记员参与本次大会的全程记录,与科大讯飞的会议音字同步系统进行一场“有声”的较量。通过大屏幕我们可以看见字幕同步的准确率相当高,连标点符号也能根据发言人的语气来标识,甚至有点让人怀疑是不是语音技术的产物。
科大讯飞发布的第三款更加特别,并不是一款产品,而是讯飞人工智能的推理和学习能力。以高考为例,讯飞正在承担一个重大的项目——高考机器人。科大讯飞通过人工智能技术可以得知每个孩子,在上课过程中、课后作业以及每一次考试和训练过程中,他的知识掌握情况,分析出每次考试的知识薄弱环节……主要是智学网、E听说两款深入皇家线上官网(中国)有限公司、家庭、孩子的产品。
刘庆峰在最后说的一句话,人工智能那些事表示很赞同。科大讯飞坚定不移地认为人工智能一定是为人类服务的,是用来延展我们人类的能力的。随着我们人类的能力通过万物互联时代的语音和语言交互,使我们的智慧可以在后台进行碰撞进行比对相互启发获得灵感,我们人类的群体智慧会上一个巨大的台阶。
随后,科大讯飞研究院院长胡郁先生详细讲解了人工智能的相关问题,深入浅出地说明科技起源、历史沿革及未来发展,时不时地透露科大讯飞的技术进展。
现阶段,科大讯飞已经可以用人工智能技术来“调侃”作诗,胡郁表示只是目前的一个基础应用,其后会有更出彩的表现。
临近结束,主持人公布了一组惊人的数字,在远场情况、会场噪声等复杂条件下,本次大会的音转文字正确率高达99.4%,高于速记员手工录入文字的准确率。科大讯飞也表示,音转文字是当下都市生活的一种经常性需求,如此高精准的转写率具有极高的实用价值。
从本次科大讯飞发布的产品看,人工智能技术带来的想象空间更宽广。在现场,演示人员利用语音对话进行订票、改签、空调开启调节、加湿器控制、机器阅卷(批改作文)等方面,俨然是一个生活中面面俱到的小助手,在没有屏幕的情况下,全程实现语音交互。