18910140161

声音、手势、触摸、面部等 Esprit多模态交互开启智能经济时代

顺晟科技

2021-07-08 10:13:50

167

人的交互渠道包括眼、耳、鼻、舌、口等器官,它们充当外部世界信号的“接收器”,接收范围内的信号并将其传递给“大脑”。在机器世界里,从过去的鼠标键盘到现在的触摸、语音、手势、视觉等,多模态人机交互技术正在相互融合。

目前,智能语音具备兼顾老人、儿童、地方方言的能力,语音与视觉、触摸屏、液晶反馈显示相结合的交互体验不断降低交互门槛。国内专业会话型AI企业Esprit结合全链路语音交互技术和自主研发的计算机视觉技术,推出多模态交互技术解决方案,落地黑白智能终端,满足用户的智能化需求。

机器的“眼、耳、鼻、舌、口”

机器可以理解人类的言语,生成对话,提供服务,大大增强了物联网设备的实际使用价值。配备语音交互平台的物联网设备越来越多,可以实现对话,从电视、冰箱到家用设备,终端数不胜数。

实践中发现,语音交互的物联网设备缺乏主动服务的能力,只是改变运营模式,用户体验并没有本质的提升。这种缺乏主动服务的人机关系如何改变?答案可能是机器不仅可以听和说,还可以看、感觉和连接五种感官进行思考。

多模态交互是智能语音交互发展的必要阶段。带有各种传感器的智能设备不仅可以听(听)和说(口),还可以用摄像头(眼睛)观察、平移/倾斜(脚)移动等。从而充分了解和沟通用户,从而满足用户的需求。

这个交互过程模拟了人与人之间的交互,使得交互更加自然,更符合用户的意图。这种交互方式打破了传统的键盘输入和智能手机的触控交互方式,符合“机器人”产品的形态特征和用户预期,定义了下一代智能产品与人的专属交互方式。

三方面加持,深化多模态互动

智能经济时代,人机交互将全面智能化,带来一系列深刻变化。为了更好地适应未来智能终端用户的需求和习惯,需要不断升级产品、内容和服务。

作为国内专业的会话式人工智能平台公司,Spirit拥有从信号处理、识别到理解再到交互的全面智能语音语言技术。Spirit多模态交互技术的应用主要包括以下三个方面:

多模态变风量空调

根据视听特征,通过多模态融合识别说话人的语音内容,拒绝其他说话人的声音,从而实现辅助降噪和拒绝

人脸识别和人脸比较

人脸识别:人脸关键点,头部姿态角度,人脸与摄像头的距离角度,性别,年龄,口罩等。

人脸比较:首先注册人脸并提取注册人脸的特征;提取待比较人脸的特征,并与注册人脸特征进行比较,识别人脸是否注册及其FaceID;

手势识别

用户聊了,坐在沙发上想看电视却找不到遥控器换台。他在面板前举手示意换台;

用户在听音乐,当手机来了,他向面板做手势暂停音乐;

从智能家居到“多模态”开花

依托智能语音行业多年的经验和关键技术优势,结合全链路语音交互技术和自主研发的计算机视觉技术,Esprit的多模态交互技术方案已应用于众多智能终端产品,满足用户的智能化需求。

在智能家居领域,Esprit针对空调、冰箱、炉灶等白色家电推出了智能AI交互解决方案。根据智能白电的不同组网方式(中控/分布式/单机),精灵提供正向唤醒,附近w

在黑电领域,智能电视作为“客厅经济”的核心代表产品,占据了客厅场景更大的流量入口。Spirit为智能电视打造流畅自然的语音输入输出,同时依托DUI平台,开辟了300多个第三方资源接口,为用户提供家居控制、交通、新闻资讯、生活娱乐等各个领域的内容服务。

鉴于周围嘈杂的干扰,许多人同时进行互动,例如,许多用户正在激烈地玩电子游戏,聚集朋友和家人等。SpiceJet的多模态交互技术方案根据视音频特征,通过多模态融合VAD分离说话人的目标语音,拒绝其他说话人的声音,实现辅助降噪,提高声源定位的准确性,即使说话人处于运动状态。

此外,Esprit的多模态交互技术方案还可以应用于带屏幕的商用显示设备,如大型会议屏幕、商场的大型显示屏、地铁购票机等。目前,该技术已在中国多个地区应用于地铁购票设备。

随着Esprit沈聪智能第二代AI芯片的发布,Esprit在多模式下的进化路线变得更加清晰。语音、图像、手势等交互方式的融合,可以大大降低用户AI体验的门槛。未来,Esprit将继续发挥优势,持续打造更多符合AI应用场景的产品,为智能经济时代提供向上的引擎。

相关文章
随机推荐
我们已经准备好了,你呢?
2024我们与您携手共赢,为您的企业形象保驾护航