人工智能耳机可让佩戴者在人群中仅聆听一个人的声音

2024-06-04 10:35:21 - 媒体滚动

华盛顿大学的一个研究小组开发了一种人工智能系统，让佩戴耳机的用户看着说话的人3到5秒钟，为他们“报名”。这个名为“目标语音听觉”的系统随后会消除环境中的所有其他声音，只实时播放收录说话者的声音，即使听者在嘈杂的地方走来走去，不再面对说话者也是如此。

该团队于5月14日在檀香山举行的ACMCHI计算机系统人因会议上展示了他们的研究成果。该概念验证设备的代码可供他人使用。该系统尚未投入商用。

资深作者、华盛顿大学保罗·艾伦计算机科学与工程学院教授希亚姆·戈拉科塔（ShyamGollakota）说：“我们现在往往认为人工智能是基于网络的聊天机器人，可以回答问题。但在这个项目中，我们开发的人工智能可以根据佩戴耳机的人的喜好，改变他们的听觉感知。有了我们的设备，即使你身处嘈杂的环境中，有很多人在说话，你现在也能清楚地听到单个声源的声音。”

使用该系统时，一个戴着装有麦克风的耳机的人轻按一个按钮，同时将头对准说话的人。说话者的声波同时到达耳机两侧的麦克风；误差范围为16度。耳机将信号发送到板载嵌入式计算机上，团队的机器学习软件在这里学习所需的说话者的发声模式。系统会捕捉到该说话者的声音，并持续播放给听者，即使这对耳机四处移动也不例外。随着说话者不断说话，系统对收录声音的关注能力也会提高，从而为系统提供更多的训练数据。

研究小组在21名受试者身上测试了该系统，受试者对收录声源声音清晰度的评分平均比未经过滤的音频高出近一倍。

这项工作建立在该团队之前的“语义听觉”研究基础之上，该研究允许用户选择他们想听到的特定声音类别（如鸟叫或声音），并取消环境中的其他声音。

目前，目标语音听觉系统一次只能收录一个声源，而且只有在目标声源的声音同一方向没有其他大声音时，它才能收录一个声源。如果用户对音质不满意，可以对声源再进行一次收录，以提高清晰度。该团队正努力将该系统扩展到耳塞和助听器上。（逸文）