本网站可能会通过此页面上的链接获得会员佣金。 使用条款 .

如今,计算机科学的最前沿就是使计算机更像人类。我们’重新使用神经网络帮助机器识别物体,玩游戏,甚至以更真实的方式说话。 谷歌 研究开发了一种新的机器学习魔术,可以复制“ 鸡尾酒会效果 ,”您的大脑将注意力集中在拥挤的房间中的单个音频源上。 The 结果令人印象深刻 — 几乎令人担忧。

谷歌 称这种技术“Looking to Listen”因为它通过多个扬声器观看视频以分散音频,所以它就像大脑一样使用听觉和视觉信号。那里’这些视频也没什么特别的。他们’只是具有多于一个人的单个音轨的视频。

要构建能够做到这一点的工具, 谷歌 从YouTube的100,000个高质量的演讲和讲座样本开始。工程师将视频切碎,以得到清晰语音的片段,说话者清晰可见,没有背景噪音。剩下的时间是排五开奖号码 Research提供了2,000小时的视频,其中包括一个人讲话(他们称其为AVSpeech数据集)。诀窍是使用这些干净的样本来创建“fake”鸡尾酒会。研究人员组合了视频,因此有多个人在讲话。那’是排五开奖号码用来训练其数据的数据 神经的 network.

与排五开奖号码 Research的许多其他突破一样,该突破也使用了卷积神经网络。网络输入包括扬声器的视觉功能以及视频的频谱图’的配乐。通过处理视频,网络可以学习如何将视频分为“time frequency mask”每个演讲者。输出掩码与音频输入频谱图匹配,以生成单独的音频轨道。

完成培训后,排五开奖号码释放了有关新视频的网络。如您在排五开奖号码中所见’的例子,这出奇地好。聆听模型可以识别扬声器发出的音频,并过滤掉其他所有内容。该技术可以在视频会议,助听器和视频监视中应用。

最后一点,这项技术可能如此强大,以至于’不难想象其中的场景’被虐待。随着未来速度和准确性的提高,观察员可以在拥挤的街道上挑选出您的声音,以了解您的发言。那里’没有迹象表明排五开奖号码打算这样做,但是’在神经网络研究中并不孤单。