四大视角、万字长文,欧盟MuMMER项目之商场服务机械人深入解读

以下新闻选自人工智能信息平台“机器之心Pro”:花最少的时间,看最重要的新闻。

今年Next Build上的明星,是一只能搬砖、能测量、能3D扫描的机器狗,它的名字叫Spot Mini。

编辑:Joni

项目介绍

结果视频的最后剧情突然反转,机械人生气了,把实验人员一顿胖揍。

.NET Core 有一些顶级功能:

Visual Studio 一直被视为适用于开发人员的最佳 IDE,微软已经发布了最新的 VS 2017 用来支持 .Net Core,在一个环境中支持代码编写、调试、分析、git 集成、单元​​测试等功能。Visual Studio 现在获取了功能齐全的免费社区版本。

视听传感(Audio-visual sensing)

利用内置的演算法,Spot 始终知道自己的下一步该落脚到什么地方,落下这一步不会在多大程度失去平衡,预测失去平衡后该怎样调整身体。

该项目的视听传感主要是在互动过程中,对使用者展开视觉跟踪和听觉定位。

作为开发人员,你需要不时的了解你的代码正在做什么。例如,过去需要通过调用统计数据库连接的 Dispose( ) 来确认是否关闭了连接。现在你可以访问源代码,来快速验证这些类型的问题。

在每个阶段的每个分支输入处,对每个分支分别计算 L2 损失函数,如输入置信示意图的顶部分支的损失函数为:

2.国内最大、广东首个风光储充调综合智慧能源系统将启用调试运营

截止到2019年7月,波士顿动力已经生产了100台测试版 Spot Mini,它们正经历每周数百小时的循环测试,以在大规模生产之前找出所有剩余的硬件和软件故障。

本文来自投稿,不代表本人立场,如若转载,请注明出处:https://accessoriesthought.com/article/1029911.html

示意图 2:军事训练标签,及其概率化。示意图源:Cao, Y.; Cane ́vet, O.; and Odobez, J.-M. 2018. Leveraging convolutional pose ma- chines for fast and accurate head pose estimation

笔者比较感兴趣的还是用于角度似然度军事训练建模的效果,结果显示在示意图 4 中。从表中可以看出,当将 [-π,π] 离散化为 180 bins 并且σ= 0.3 时,可以获得最佳性能。但是结果与直接回归角度大致相同。这一点还是让人有些失望的,特别是考虑到用于似然度还不会带来超参数调优的问题,似乎这种 trade off 并不值得。

将网络输入编码为高斯混合的好处主要在于输入可以有任意多个波峰,从而放松了对发声源数量的假设。在测试阶段,通过找到高于给定阈值ξ的峰值来解码输入,就可以获得对发声源的预测:

其中σ_n 代表邻域距离,也就是说在σ_n 范围内最大且高于阈值的预测将不会被选为发声源。在实验中,所写选择σ_n= 8°。

GCC-PHAT 特征的维度比较小(51×6),因此所写直接用于了 MLP 对其学习,而 GCC-FB 特征的维度则要高得多(51x40x6),用于 MLP 的开销过大。因此所写用于了卷积来减小建模参数数量,仅在最后一层用于了全连接层展开预测。但用于 CNN 的一个问题是神经网络是在 3 维输入特征上执行 2D 卷积,也就是说 CNN 将输入统计数据视为示意图像,而没有考虑输入统计数据的实际属性。为此,所写设计了两阶段神经网络(TSNN-GCCFB)来更好的利用输入的 GCC-FB 特征,主要思路是:

示意图 7 显示了已知数量来源的建模表现。在扬声器统计数据集上,[20] 提出的三个 NN 建模均实现平均小于 5°的误差和大于 90%的精度,而最佳基线方法(SRP-PHAT)具有 21.5°的误差和仅 78%的精度。对于生物受试者统计数据集,基线方法在单一声源上的 MAE 更好,不过准确性稍低一点。

示意图 8: 未知声源数量的建模表现(麦克风统计数据集)。示意图源:He, W.; Motlicek, P.; and Odobez, J. 2018a. Deep neural networks for multiple speaker detection and localization. In 2018 IEEE Interna- tional Conference on Robotics and Automation (ICRA), 74– 79.

建模的输入仍然被模拟为高斯混合,不同的是,现在建模不仅要预测声源位置(DOA),还需要预测噪声位置 q_i:

示意图 9: 所需的多任务网络输入。示意图源:He, W.; Motlicek, P.; and Odobez, J.-M. 2018b. Joint localization and classification of multiple sound sources using a multi-task neural network. In Proceedings of Interspeech 2018, 312–316.

具体如示意图 9 所示。对网络输入解码的思路也与 [20] 一样。

多任务网络是一个完全卷积的神经网络,由残差网络(ResNet)和两个特定于任务的分支组成。这两个特定于任务的分支的结构是完全相同的——它们都以 1×1 卷积层开始,具有 360 个输入通道(对应于 360 个方位角方向)。两阶段军事训练和 [20] 一样,每个分支的最终输入是 360 维向量,分别对应于对发声源和噪声源的预测。

测试统计数据的设置和前文一样,但统计数据量有所增加。这一新的建模在扬声器录音中的准确度超过 95%,在生物录音中的准确度超过 85%。

[22] 则讨论了用于仿真统计数据、弱监督和对抗军事训练神经网络的可能性,并在其此前提出的 STFT 网络 [21] 上展开了测试。结合机械人平台的半自动和综合统计数据收集程序,MuMMMER 项目的声音演算法模块开发时可以快速收集统计数据以学习新建模。

社交信号处理(Social signal processing)

根据检测到的情感,演算法可以在语音文本的上下文中映射适当的手势,并用于 ToneScore 作为参数来为该特定手势生成正确的强度(幅度和速度)。演算法还可以在声音中反射这种检测到情感——所写用于 BEST-非语言声音工具包(B.E.S.T non-verbal sounds tool kit),该工具包的库中每个类别都有 20 种声音来表达情感,例如「愤怒」、「厌恶」、「享受」、「恐惧」、「兴趣」、「悲伤」、「羞耻、,「惊奇」。所写用于文本情感分析器中的 ToneScore 将 ToneCategory 映射到声音的情感类别和强度级别。声音库还具有 backchannel,可以在机械人聆听时用于,例如发出一些声音表达「确认」、「同意」、「不同意」、「鼓励」、「不确定」、「被理解」。

对话交互(Conversational interaction)

[9] 中解释道基于深度学习技术在大型公共统计数据集(如 OpenSubtitles 或 Twitter)展开军事训练,可以取得很好的效果,但是,也有内容不易控制,聊天没有主题的缺点,如 Tay bot——Tay bot 是由 Microsoft 于 2016 年推出的一款 AI 聊天机械人,然而,在 Tay 推出仅一天之后,其就开始用于种族主义和带有性指控的信息回应其他 Twitter 使用者——等最近的例子所示,在将系统部署到实际客户时,直接从统计数据中学习也有其陷阱。为此,Alana 虽然用于由神经网络军事训练的聊天机械人,但其利用手工制定的规则对聊天机械人的回应展开选择、在精心选择的统计数据集上军事训练机器学习建模,并且根据客户反馈展开验证和更新制定的规则,Alana 系统的具体架构如示意图 11 所示。

示意图 11:Alana 系统架构。示意图源:Papaioannou, I.; Cercas Curry, A.; Part, J.; Shalyminov, I.; Xinnuo, X.; Yu, Y.; Dusek, O.; Rieser, V.; and Lemon, O. 2017. Alana: Social dialogue using an ensemble model and a ranker trained on user feed- back. In 2017 Alexa Prize Proceedings.

在挑战赛中,该系统的最终使用者评分(整个半决赛期间的平均使用者评分)为 3.12,在半决赛的最后一周(2017 年 8 月 8 日至 15 日)中,平均使用者评分达到 3.3。半决赛结束后,系统的最高得分分别为 3.52(每日平均值),3.45(每周平均值),中位对话时长为 2.25 分钟(7 天平均值)。

路线导航(Route guidance supervision)

根据这篇文章中的发现,所写还发表了 [14],在完成路径规画的同时还加强机械人的文学运动学约束,以避免为与机械人同处一个环境的生物带来障碍。根据这一目标,所写提出了社不会约束(Social Constraints),将安全、使用者体验等编码进路径规画的演算法中。最终的演算法是一个基于 elastic band 和示意图优化的框架,用于计算机械人的轨迹和预测附近的生物的文学运动路线。最终 MuMMER 机械人系统中文学运动规画的 local planner 就是基于该演算法研发的。

示意图 12: [14] 中的 local planner 的演算法示意图示。示意图源:Khambhaita, H., and Alami, R. 2017. Viewing Robot Navigation in Human Environment as a Cooperative Activity. In International Symposium on Robotics Research (ISSR 2017), 18p.

另一个较新颖的研究是 [18],该文提出的演算法不仅要让机械人作为行人问询路线时的路线方向获取者,而且还要对生物作为听众展开建模,并在规画时将其考虑在内。利用对生物听众的位置和实现估计,机械人可以与人一起导航以达到与获取路线方向更相关的视角。具体来说,该演算法应用于交互机械人,而该机械人的主要职责是在公共场所问讯处获取信息和路线指示。当有人问讯时,它可以移动一点(例如围绕其基座几米远),并要求问讯人跟随自己移动,以使他们两个都到达可以指向一个(或几个)地标的和更清楚地说明路线的位置。当然,交互机械人无意陪同人员到达目的地,只是为了更好的帮助其寻找道路。最终的演算法用于 SVP (Shared Visual Perspective) 规画器,该规画器搜索共同搜索机械人和生物的最佳位置,以实现获取路线方向所需的有效视觉透视共享,并在有多个可用路标时选择最佳地标。SVP 随后也被应用到 MuMMER project 的文学运动规画演算法中。

这部分比较有意思的研究有 [17],用于增强导航过程中人机交互、减少不愉快的体验,比如使用者不清楚机械人不会从自己面前穿行还是不会停下来等待从而犹豫不决。所写提出用于机械人注视的方式来获取有关机械人文学运动计划和目标的明确信息,他们提出将移动机械人平台上的头部文学运动控制表述为一个多准则决策问题(multi-criteria decision-making problem),并用于层次分析法(analytic hierarchy process)对其展开求解。

针对查看路径的不道德,所写只用于本地规画模块的输入轨迹(一般情况下导航规画具有静态环境示意图的几何路径的生成(全局规画)和避免动态障碍的文学运动指令计算(局部规画)两个模块),此功能对应于两种社交注视不道德,即「表达精神状态」和「增强机械人的类人性」。所写将文学运动方向与凝视方向之间的角度定义为凝视文学运动角度(GMA),如示意图 13 所示。

向行人投以注视的不道德主要用于机械人在周围环境中对人展开检测时,并用此计算可替代的凝视点,从而帮助机械人执行对生物展开类似扫视的不道德。由于每种不道德功能仅为决策过程获取一种选择,因此,当检测到多个人时,机械人不会向它认为需要「最紧急」注意的人投以注视。同时,这部分演算法不会跟踪机械人已经确认的生物,即在定义的可见角α_{vis} 中确定的行人都不会被添加到一个中,以避免在新的位置更新时触发多个扫视不道德。

所写在这里获取的演算法的验证主要是定性的,即机械人的头部不道德有利于人机交互。具体来说,所写提出了两个假设:

结语

现在回头看 MuMMER 机械人的设计核心:MuMMER 的总体思想是,要使机械人在这种应用场景下成功,就必须具有娱乐性和吸引力:也就是说,它必须具有社交智能,才能理解使用者的需求和交互不道德,以及做出适当的回应 [23]。可以说,MuMMER 的设计从一开始就是以一个成熟的产品和有容错性、稳定性的功能为标的,它不是实验性的,也不以技术的先进程度为衡量标准。从这一点出发,所有的研究都以提高产品最终的表现和使用者体验为目标,所有演算法的设计也都基于此。也正因此,我们可以看到上述四个方面所用到的演算法在其单独的研究领域很难算得上 state-of-art,更甚至出于对系统的稳健性考虑不会舍弃一些高性能演算法的部署。

另外,对国内服务机械人开发者有启发意义的是,该项目也回归到人方面的研究:比如说使用者对于导航有什么感受?社交信号处理中使用者一般如何交互?这些内容涉及到一般不道德学和工程学的交叉学科,课题值得进一步挖掘。

文本所写为机器之心分析师 Yuanyuan Li。她几次转行,本科国际贸易,研究生转向统计,毕业后留在欧洲,选择从事机械研发工作,主要负责示意图像处理,实现计算机视觉演算法的落地。欣赏一切简单、优雅但有效的演算法,试示意图在深度学习的簇拥者和怀疑者之间找到一个平衡。希望在这里通过分享自己的拙见、思想的碰撞可以拓宽自己的思路。

参考文献:

【1】Cao, Z.; Simon, T.; Wei, S.-E.; and Sheikh, Y. 2017. Realtime multi-person 2d pose estimation using part affinity fields. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 7291–7299.【2】Cao, Y.; Cane ́vet, O.; and Odobez, J.-M. 2018. Leveraging convolutional pose ma- chines for fast and accurate head pose estimation.

【3】Craenen, B. G.; Deshmukh, A.; Fos- ter, M. E.; and Vinciarelli, A. 2018a. Shaping ges- tures to shape personalities: The relationship between ges- ture parameters, attributed personality traits, and Godspeed scores. In Proceedings of the 27th IEEE International Sym- posium on Robot and Human Interactive Communication (RO-MAN), 699–704.

【7】Novikova, J.; Dondrup, C.; Papaioannou, I.; Lemon, O. (2017). Sympathy Begins with a Smile, Intelligence Begins with a Word: Use of Multimodal Features in Spoken Human-Robot Interaction. 10.18653/v1/W17-2811

【8】Oertel, Catharine and Lopes, Jose and Yu, Yu and Mora, Kenneth A. Funes and Gustafson, Joakim and Black, Alan W. and Odobez, Jean-Marc. (2016). Towards Building an Attentive Artificial Listener: On the Perception of Attentiveness in Audio-Visual Feedback Tokens. Proceedings of the 18th ACM International Conference on Multimodal Interaction. pp 21 – 28.

【9】Papaioannou, I.; Cercas Curry, A.; Part, J.; Shalyminov, I.; Xinnuo, X.; Yu, Y.; Dusek, O.; Rieser, V.; and Lemon, O. 2017. Alana: Social dialogue using an ensemble model and a ranker trained on user feed- back. In 2017 Alexa Prize Proceedings.

【11】G. Ferrer and A. Sanfeliu,「Multi-Objective Cost-to-Go Functions on Robot Navigation in Dynamic Environments,」in Proc. IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS), 2015.]

【13】H. Khambhaita and R. Alami. (2017). Assessing the Social criteria for human-robot collaborative navigation: A comparison of human-aware navigation planners. 26th IEEE International Symposium on Robot and Human Interactive Communication (RO-MAN), Lisbon, 2017, pp. 1140-1145.

【22】He, W.; Motlicek, P.; and Odobez, J. 2019. Adaptation of multiple sound source local- ization neural networks with weak supervision and domain- adversarial training. In ICASSP 2019 – 2019 IEEE Interna- tional Conference on Acoustics, Speech and Signal Process- ing (ICASSP), 770–774.

【24】 V. Srinivasan, R. R. Murphy, and C. L. Bethel,「A Reference Ar- chitecture for Social Head Gaze Generation in Social Robotics,」International Journal of Social Robotics, vol. 7, no. 5, pp. 601–616, 2015.

本文来自投稿,不代表本人立场,如若转载,请注明出处:https://accessoriesthought.com/article/1839466.html

accessoriesthought.com