聲聲入耳：運用人工智慧來解決「雞尾酒會」問題

麻省理工學院的研究團隊使用音樂錄影帶來訓練深度學習神經網路，以區分出其中的各種聲音。

未來將採用人工智慧來解決經典的雞尾酒會問題，即如何從多種背景噪音裡篩選出特定的聲音。

人耳十分擅長從喧鬧的環境聲裡解讀出各種聲音，大腦可以將注意力集中在我們想聽到的內容上。不過使用機器來「分離音源」一事，多年來始終困擾著工程師。

麻省理工學院的研究團隊則是使用音樂錄影帶來訓練神經網路，以求更準確地指出音源。

麻省理工學院的研究員，過去也曾在 NVIDIA 擔任研究實習生的 Hang Zhao 表示，該團隊的深度學習系統「直接使用大量未標記的 YouTube 影片進行學習，以理解哪些物體發出什麼聲音。」

Hang Zhao 說這是一項具有突破性的研究，在語音、聽力學、音樂及機器人技術方面將會有著廣泛的應用方式。

透過連續觀看進行學習

麻省理工學院使用了一種新方法來解決雞尾酒會的問題：使用 YouTube 影片裡的影像和聲音來訓練深度學習神經網路，目的是讓神經網路學習如何在發出聲音的影片裡進行精準影像定位，而且是深入到像素的程度。

麻省理工學院的研究團隊使用 YouTube 上60個小時的音樂錄影帶內容來訓練這套名為「PixelPlayer」的系統，目前它可以辨識出二十多種樂器的聲音。

來自麻省理工學院電腦科學與人工智慧實驗室的這支研究團隊，開發出三套卷積神經網路，三者共同運作以產生結果。第一個對視覺輸入內容進行編碼，第二個對聲音輸入內容進行編碼，第三個則是按照視覺和聲音輸入內容合成輸出內容。

PixelPlayer 的訓練資料集由714支 YouTube 影片組成。「卷積神經網路在四個 NVIDIA TITAN V GPU 上運行，能以超高速度來處理資料，在一天內便學會了。」Zhao 說。

PixelPlayer 為自我監督式神經網路，無需人為對樂器或聲音內容加入註釋，反而是系統學習低音號和小號等樂器的外觀、聲音及移動方式。

PixelPlayer 在音樂錄影帶裡對各音源進行定位後，便會區分出各音源的波形，目前能找出兩三種樂器，該研究團隊的目標是在短時間內找出更多樂器。Zhao 在找出樂器的過程中，表示：「我們將一個 MP3 檔案分成多個 MP3 檔案。」

音訊工程師可以使用 PixelPlayer 音樂應用程式的人工智慧技術，改善樂器聲音太小的情況，或是關掉背景裡的某些聲音。Zhao 說此舉可以幫助音訊工程師改善現場錄音或重新錄製音樂。

研究人員不斷研究將深度學習用於解決雞尾酒會問題，目的也是為了改善助聽器（請見《聽啊：深度學習如何徹底改造助聽器，Hear, Hear: How Deep Learning Is Reinventing Hearing Aids》一文）。

它還能用在音樂和聽力學以外的地方，辨識我們四周的各種聲音，像是從森林的聲音裡找出稀有鳥類的鳴叫聲。「機器人可以使用這套系統來理解環境裡的聲音。」Zhao 說。

麻省理工學院的研究團隊九月時將出席在慕尼黑舉行的歐洲電腦視覺大會（European Conference of Computer Vision），並且介紹他們的研究成果。