【免责声明】 本文是基于外部来源的信息重新整理的。请在参考本文内容前核实原始来源。
新闻摘要
以下内容已在网上发布。下面呈现了翻译后的摘要。有关详细信息,请参阅原文。
谷歌研究院开发了创新的声音定位技术,使小组对话更加无障碍,特别是对于听力受损的人群。这项技术利用人工智能分离拥挤环境中不同说话者的声音,类似于我们大脑在喧闹的聚会上自然地专注于一个说话者的方式——这种现象被称为”鸡尾酒会效应”。该系统采用多个麦克风和先进算法来确定声音的来源,增强特定方向的语音,同时降低背景噪音。这一突破性进展可能会彻底改变助听器、视频会议和智能手机无障碍功能。早期测试显示,该技术可将嘈杂环境中的语音理解度提高高达40%,从而帮助全球4.66亿听力受损人群。该系统实时工作,使其在餐厅、教室和社交场合等传统助听器难以应对的日常场景中都能得到实用应用。
来源: 谷歌研究博客
本站解析
背景和环境
在嘈杂环境中听声辨位对每个人来说都是一个挑战,但对于听力受损或存在听觉处理障碍等情况的人来说尤其困难。传统助听器会等量放大所有声音,使背景噪音与语音同时增大,这造成用户听到更多声音但理解对话的能力反而降低,令人沮丧。
“鸡尾酒会问题”已经困扰科学家数十年——人类大脑是如何过滤掉不需要的噪音,专注于单个说话者的?我们的大脑利用耳朵之间的细微时间差异、从唇读获得的视觉信息,以及对声音的熟悉度等线索。在技术上复制这种能力需要复杂的人工智能。
专家分析
声音定位技术代表了多个领域的融合:声学工程、机器学习和神经科学。该系统使用”波束成形”——创造一个聚焦的”注意力光束”指向特定的声源,同时抑制其他声源。可以想象成一个声学聚光灯,只照亮你想听的那个人。
谷歌的创新之处在于将空间音频处理与能识别和跟踪移动说话者的AI相结合。该系统学会区分语音和噪音模式,从而随时间提高性能。这种自适应能力意味着该技术能更好地帮助每个个人用户。
补充数据和事实
听力困难影响各个年龄段的人群。美国12岁及以上人群中,每8人就有1人双耳听力受损,且每增加10岁,这一比例就会翻一番。在青少年中,17%表现出噪音性听力损失的迹象,通常源于通过耳机收听过大音量的音乐。世界卫生组织预测,到2050年将有9亿人患有听力障碍。
目前,每只助听器的费用在1000-6000美元之间,许多保险计划也不予报销。如果声音定位技术能集成到智能手机和经济实惠的耳机中,它就可以为无法负担传统解决方案的数百万人民主化听力辅助。
相关新闻
主要科技公司正在竞相改善音频无障碍。苹果为AirPods Pro推出了”对话增强”功能,使用波束成形技术增强面对面对话。Meta正在开发AR眼镜,可以提供关于说话者的视觉线索。微软Teams使用AI分离视频通话中的说话者。
美国食品药品监督管理局最近批准了非处方助听器,使基本设备无需处方即可获得。这一监管变革,加上不断进步的技术,可能会将听力辅助从昂贵的医疗设备转变为可获得的消费电子产品。
总结
谷歌的声音定位技术代表了让对话无障碍的突破性进展。通过使用AI复制大脑自然专注于特定说话者的能力,这一创新可以帮助数百万人更充分地参与社交、教育和工作环境。随着这项技术被集成到日常设备中,它有望打破交流障碍,创造一个更加包容的世界。
公众反应
听力受损的人对能帮助他们重新享受餐厅和聚会的技术表示兴奋。教师们看到了这项技术在帮助患有听觉处理障碍的学生在嘈杂的教室中取得成功的潜力。隐私倡导者则对能隔离和记录特定对话的设备提出了担忧。音频工程师赞赏这一技术成就,同时也注意到在不同声学环境中存在的挑战。
常见问题解答
问:这与普通助听器有何不同?
答:传统助听器会放大所有声音。这项技术则选择性地增强特定方向的语音,同时降低其他噪音,使对话更加清晰。
问:这项技术什么时候会上市?
答:一些功能已经出现在高端耳机和手机中。预计在2-3年内,这项技术将广泛应用于经济实惠的设备中。
问:这项技术能否帮助没有听力损失的人?
答:是的!任何在嘈杂环境中(如餐厅、音乐会或视频通话)挣扎的人,都可以从更清晰、更集中的音频中获益。