好运十分快3玩法沉寂4年的Siri终于开放:这是目前我们知道的全部细节 | 雷锋网

  • 时间:
  • 浏览:3
  • 来源:大发快三app-大发快3官网

雷锋网(公众号:雷锋网)按:本文作者陈村,剑桥大学自然语言外理(NLP)组,现为机器学习语义分析工程师。

果不其然,好运十分快3玩法iPhoneiPhone在昨晚WWDC 2016上发布了新的好运十分快3玩法SiriKit,即把Siri开放给开发者好运十分快3玩法。作为自2012年就发布的Siri,除了偶尔说几个段子、打个电话将会发个短信,似乎也没啥过多常用的功能。iOS平台的从前显著优势其拥有雄厚的第三方应用生态和众多优质开发者,将Siri开放给iOS生态希望不能让Siri支持更雄厚的功能。

Siri 变好运十分快3玩法身 SiriKit 前一天,带来那些?

面向开发者的Siri的API都集成在今天早上前一天发布的SiriKit中。(有趣的是,现任泰国王后也叫Sirikit,可是 中国人民的老一些人 诗琳通公主的母上)。

SiriKit采用了跟Goog好运十分快3玩法le和出门问问相似的策略,即用户通过正常的流程唤醒Siri,Siri做完语音识别和语义分析前一天,将底部形态化语音分析结果打包成从前某个领域(Domain)的意图(Intent),有后后 交给支持一些意图(Intent)的第三方应用(比如微信),第三方应用被启动,从传入的Intent中获取相应的信息,完成操作。

相似,上图演示中提到了的例句 “I need to send a message to Nancy via WeChat saying I'll be five minutes late",当用户唤醒Siri说出这句话的前一天,Siri会把上端这句话转去掉 底部形态化语义意图:

  • 领域 (Domain):Messaging

  • 意图 (Intent):Send a message (INSendMessageIntent

  • 意图参数 (Intent Parameter)

    收件人(recipients):Nancy

    消息内容(content):I'll be five minutes late

有后后 一些意图会被转交给微信,微信会从该意图中抽取出收件人和消息内容,匹配用户联系人并发送消息。

按照iPhoneiPhone官方的iOS文档,现在SiriKit共支持7个领域的共计22种意图:

  • 语音通话 VoIP Calling:打电话、发起视频电话、查通话记录

  • 信息 Messaging:发信息、搜索信息

  • 照片搜索 Photo Search:搜索照片、播放照片幻灯片

  • 当时人之间的付款 Payments:向某人付款、向某人收款

  • 健身 Workouts:现在结束了了健身、暂停健身、恢复健身、现在结束了了健身、归还健身

  • 打车 Ride Booking:查看俯近可用的车辆、订车、查看订单

  • 车载 CarPlay:切换音频输入源、空调、除霜、座椅加热、FM调台

对于以上的22种意图,iPhoneiPhone前会帮开发者外理好所有的语音识别和语义理解,开发者只不能 申明支持一些意图,有后后 坐等用户唤醒就好了

比如说,“Hey Siri, 用支付宝付20元给小张作为午饭钱”,支付宝就会自动被唤醒,找到用户“小张”并转账20元。

“Hey Siri,用滴滴给我叫为社 算油耗车去中关村”,则启动滴滴打车,并自动设定目的地为中关村。

(图为作者自制)

作为开发者而言,将会你的App功能正好跟以上7大领域22意图重合,只有 是从前很好的将会去声明支持其中某一些意图,从前就可不可以 让用户用语音的土法子来启动你的应用,大大增加使用的便利性和用户粘性。

| iPhoneiPhone为那些现在才开放Siri的语音搜索API?

1、开放给开发者需谨慎

SiriKit开放了Siri的语音搜索API,机制跟Google Android Voice 相似,后者都将会上线两年并早已支持十几种领域,远超SiriKit现在发布的7个领域。而国内的出门问问,因有Ticwear智能手表操作系统作为入口,早在去年年初就开发了相似的语义API,滴滴、支付宝、阿里小智智能家居等第三方厂商早已通过一些形式落地其手表操作系统。

在语音搜索API上,一般公司的做法前会极其谨慎的。不同于以科大讯飞为代表的“应用内”语音、语义API,iPhoneiPhone、Google、出门问问那些API属于“入口级”语音搜索API,即语音搜索是系统发起的而非在应用内发起,系统识别语音意图并埋点给第三方应用。

一般相似“入口级”语音搜索API,会非常谨慎地先做好领域分类(Domain Classification),有后后 根据分出来的领域导流给不同的应用。可是,领域和领域内意图,一般要由系统前一天定义好、有后后 优化好语音、语义识别模型前一天,才开放给第三方开发者使用。

2、现有语音识别API位于那些技术瓶颈?

将会众所周知的技术难度,现有的语音识别API还位于以下技术瓶颈:

首先,语音识别方面,训练从前可靠的语音识别不能 领域内的一定量语言模型。

相似将会不将北京地名词典从前的领域知识输入进语音识别引擎,语音识别根本无法正确输出相似于“簋(gui)街”从前的不常见词语。

其次,将会是“入口级”语音搜索,不能 外理好不同领域之间的歧义。

相似“发微信给小iPhoneiPhone让她我你可不可以打电话订为社 算油耗出租车”,这句话对人类来说是再简单不过了,有后后 对于现有的语义识别系统来说前会极具挑战性的:这到底是要发短信呢?还是打电话?还是叫车?为社 还提到了歌曲“小iPhoneiPhone”啊!

3、发布会上只有 提到的特色

不过,笔者也从官方文档中惊喜地发现从前未在发布会上提及的特色。不同于Google Voice Action[1]SiriKit发布第一版就允许开发者在一定程度上自定义语音命令。SiriKit允许开发者通过配置文件的土法子自定义某一些词的读音、上下文例句、甚至语义含义,当然,那些不能 限定在这7大领域2从前意图框架内。

如下面图中例子所示:

图中展示了从前名为“CardioBonaza”的健身应用,其应用支持从前名为“Cardio Craze”的健身项目,用户可不可以 通过Siri直接启动CardioBonaza应用并现在结束了了Cardio Craze健身项目上图的配置文件通过以下几方面帮助Siri识别有有关命令:

  • 定义Cardio Craze是现在结束了了健身(INStartWorkoutIntent)一些意图下面的workoutName一些属性(注意,一些意图以及意图的指令前会暗含在SiriKit那7大领域和22意图内的)。从前一但识别出来,Siri会把Cardio Crazes识别成workoutName属性传给CardioBonazay应用

  • 定义Cardio Craze的发音以及将会再次再次出现的上下文,这有益于帮助Siri更准确的语音识别那些不常用词

  • 通过定义Intent Phrase的一些例句,甚至可不可以 影响Siri入口的领域分类(Domain Classification)

iPhoneiPhone一向谨小慎微,这次SiriKit仅仅开放了7个领域,应该是经过充分的用户调研和模型调优。但实际使用中是是不是不能胜任错综复杂的用户自然语言,还不能 等到真正发布前一天好好体验。不过,SiriKit人太好做了充分的准备,准备和开发者同时保证良好的语音交互体验。

那些是用户真正不能 的语音搜索?

除此之外,iPhoneiPhone今天还发布了MacOS版本的Siri,可不可以 在Mac上通过Siri去完成手机上的一些基本功能。比如听歌、查天气,以及一些为Mac笔记本开发的语音命令,比如查找某个文件、将会看看电脑还几个剩余空间。

连同SiriKit,这应该是Siri自从2012年发布以来最大的一次更新。

但我认为,这次更新仍然乏善可陈。竞争对手Google某种拥有强大的AI研发能力和长期以来的技术积累,SiriKit做的那些事情从技术上来讲都可是 经常在追赶Google而已。

要做到如同Google Now一样的智能,比如百科类那些的现象的问答、智能推送[2],iPhoneiPhone还有很长的一段路要走。当然当前,不管是哪家的语音识别技术,从能力上来讲并只有 质的区别,人工智能语音搜索仍然是从前新鲜玩意,他的能力远低于一些人 的预期。在短期人工智能技术难以进行质的突破的情况表下,像iPhoneiPhone从前谨小慎微地一步步往前走,慢慢地加入新的功能,让更多的开发者加入这场游戏,总体来说也是推动了整个行业的发展。今天半夜发布的前一天,iPhoneiPhone表态SiriKit将会得到众多主流App的支持,包括微信、支付宝、滴滴、WhatsApp、Skype等,这你说正是iPhoneiPhone作为从前后后 者的优势。

这我你里可不可以 起了4年前第一次发布Siri的前一天,无声无息地发布,在沉寂了十几年的人工智能圈,确人太好实地掀起了一阵浪潮。

注解:

【1】Google的Voice Action有自定义语音命令,有后后 看起来还只有 完全准备好。

【2】Google Now会分析用户的Email 来获取用户的一些当时人信息,比如航班行程、酒店。iPhoneiPhone在今天半夜的发布会上声称,出于用户隐私方面的考虑,暂时只有 相似的功能。

雷锋网原创文章,未经授权禁止转载。详情见转载须知。