北青報：AI語音技術：行善還是作惡？

張田勘

2019年06月17日08:01 來源：北京青年報

原標題：AI語音技術：行善還是作惡？

AI語音技術是AI的一個分支，隨著AI技術的發展，AI語音技術也在突飛猛進換代升級。現在，科大訊飛、搜狗等科技公司相繼發布了語音合成技術的應用。通過AI手段，用戶可以一秒變聲為社會名人或者其他想要模仿的聲音。

AI的這種音色遷移技術可稱為變聲技術，可以將任何人的聲音轉換成特定人的聲音（Any-to-One）。與國內的IT公司比較起來，搜狗公司的AI變聲功能已經達到實用的階段。搜狗CEO王小川在一場大會上進行了展示。通過手機軟件，王小川用AI變聲模擬了高曉鬆和東北妹子的聲音，引得現場連連發笑。

比起AI之前的語音服務，如導航、智能音箱、問題解讀等，變聲技術是AI語音技術的重要升級，如果說之前的AI語音服務還在追求以什麼樣的語音，以及如何使AI的語音更像人的聲調和音色為用戶和公眾提供更好的服務，那麼現在的AI變聲技術則進一步擴大了AI的應用范圍，既有可能讓AI語音更好為公眾服務，也有可能讓AI語音步入歧途，成為詐騙的工具。前者是向善和行善，后者是從惡和行惡。

AI的變聲技術是一種逼真的語音合成技術，它的基礎是神經網絡和機器學習。神經網絡模擬電信號在人腦神經元之間的傳遞過程，對輸入數據進行處理，從大量樣本數據中總結出共同特征，再通過機器學習模擬特定人的聲音，達到以假亂真的效果。顯然，這樣的變音技術有很多用武之地，凡是可以採用語音或有聲服務的地方，都可能獲得這類服務和應用，如語音交互、有聲讀物、新媒體、智能客服、大眾娛樂等。不過，AI變聲技術的短板也是顯著的，如果有人利用這種技術向任何特定的人打電話以扮演其親人、朋友、同事、上級的聲音，就會讓人難以辨別真假。

不過，與AI變聲技術相似的另一種AI語音技術似乎向善的成分大一些，這就是“講話到面孔”技術，也可稱為“聞聲識人”技術。研究人員設計了一種智能軟件，把網上搜集的數百萬段教學和音像視頻中的每個人的面部特征與其講話的聲音特點匹配和相聯，形成一種可供計算機學習的大數據，通過深度學習，這種智能軟件僅僅通過聽一個人的聲音就可以畫出（顯示）其相貌，而且八九不離十，但是，現在這種軟件還不成熟。

“講話到面孔”的AI語音技術完全可以應用到刑事鑒識中，可以與較早的模擬畫像技術一道成為刑事鑒識的補充技術。模擬畫像技術是基於找不到嫌疑人的影視資料、聲音和照片，或者是嫌疑人的圖像很模糊，隻能通過受害人或目擊者的口述，由刑偵人員畫出嫌疑人的相貌。2017年6月9日，克裡斯滕森殺害中國訪問學者章瑩穎，在案件偵查之初，美國聯邦調查局（FBI）就向擅長模擬畫像的中國警官林宇輝發出邀請，請他協助畫出嫌犯的畫像，而當時能提供的嫌犯圖片就來自街邊監控攝像頭上的模糊截圖。

無論是AI變聲技術，還是“講話到面孔”的AI語音（聞聲識人）技術，都是AI語音技術的升級。技術是中立的，關鍵在於如何使用這類技術。在這類技術應用於社會生活和工作之前，制定對其嚴格管理的措施極為緊迫和必須。

2019年4月，全國人大常委會審議的《民法典人格權編（草案）》裡加了一條規定：任何組織和個人不得以利用信息技術手段偽造的方式侵害他人的肖像權。同樣，如果AI語音技術發展了，也應當加上不得以信息技術手段偽造的方式侵害他人的聲音權，同時要單獨在人工智能立法中涉及AI合成不得侵犯他人的肖像權、聲音權等。任何未經授權的合成肖像、合成音頻均屬於侵權違法行為。

盡管如此，還是需要有一部明確的法律來規范包括語音、肖像等在內的AI新產品和應用，使其隻能向善行善，而非向惡行惡。

(責編：段星宇、董曉偉)