一段音訊就能驅動照片唱歌？是真的！EMO模型上線通義APP

首頁 > 科技

一段音訊就能驅動照片唱歌？是真的！EMO模型上線通義APP

來源：糗事百科釋出時間：2024-04-26 05:36

極目新聞記者周丹

只需要一段音訊、一張照片，就能讓人物開口唱歌說話？是真的！讓奧黛麗赫本唱《上春山》、陶俑仕女說英文RAP、愛因斯坦說中文段子……都能成為現實！

不久前，這款名為EMO的模型因為阿里通義實驗室的一篇論文火遍海內外，模型的產品化程序也廣受關注。4月25日，EMO終於上線通義APP，並開放給所有使用者免費使用。

25日，極目新聞記者開啟通義APP，進入“全民舞臺”頻道，看到EMO產品頁面顯示有“全民唱演”。在歌曲、熱梗、表情包中任選一款模板，上傳肖像照片，EMO隨即就能合成影片。

記者隨機生成了一段會說話唱歌的 AI 影片，以及實現無縫對接的動態小影片，最長時間可達1分30秒左右。影片中，人物表情非常到位，任意語音、任意語速、任意影象都可以一一對應。

記者看到，首批上線了80多個EMO模板，包括熱門歌曲《上春山》《野狼disco》等，更不乏網路熱梗“缽缽雞”“回手掏”等。不過，記者嘗試自定義音訊發現，目前暫不開放，只能選擇APP預置的音訊來生成影片。

據瞭解，EMO是通義實驗室研發的AI模型，其背後的肖像說話（Talking Head）技術是當前大熱的AIGC領域。EMO之前的Talking Head技術都需針對人臉、人頭部或者身體部分做3D建模，通義實驗室在業界率先提出了弱控制設計，無需建模就可驅動肖像開口說話，不僅降低影片生成成本，還大幅提升了影片生成質量。EMO學習並編碼了人類表達情緒的能力，能將音訊內容和人物的表情、嘴型匹配，還能把音訊的語氣特徵和情緒色彩反映到人物微表情上。

今年2月底，通義實驗室公佈相關論文，EMO隨之成為繼SORA之後最受關注的AI模型之一。現在，通義APP讓所有人都可免費體驗前沿模型的創造力。未來，EMO技術有望應用於數字人、數字教育、影視製作、虛擬陪伴、電商直播等場景。

（來源：極目新聞）

更多精彩資訊請在應用市場下載“極目新聞”客戶端，未經授權請勿轉載，歡迎提供新聞線索，一經採納即付報酬。

極目新聞記者周丹

只需要一段音訊、一張照片，就能讓人物開口唱歌說話？是真的！讓奧黛麗赫本唱《上春山》、陶俑仕女說英文RAP、愛因斯坦說中文段子……都能成為現實！

不久前，這款名為EMO的模型因為阿里通義實驗室的一篇論文火遍海內外，模型的產品化程序也廣受關注。4月25日，EMO終於上線通義APP，並開放給所有使用者免費使用。

25日，極目新聞記者開啟通義APP，進入“全民舞臺”頻道，看到EMO產品頁面顯示有“全民唱演”。在歌曲、熱梗、表情包中任選一款模板，上傳肖像照片，EMO隨即就能合成影片。

記者隨機生成了一段會說話唱歌的 AI 影片，以及實現無縫對接的動態小影片，最長時間可達1分30秒左右。影片中，人物表情非常到位，任意語音、任意語速、任意影象都可以一一對應。

記者看到，首批上線了80多個EMO模板，包括熱門歌曲《上春山》《野狼disco》等，更不乏網路熱梗“缽缽雞”“回手掏”等。不過，記者嘗試自定義音訊發現，目前暫不開放，只能選擇APP預置的音訊來生成影片。

極目新聞記者周丹

只需要一段音訊、一張照片，就能讓人物開口唱歌說話？是真的！讓奧黛麗赫本唱《上春山》、陶俑仕女說英文RAP、愛因斯坦說中文段子……都能成為現實！

不久前，這款名為EMO的模型因為阿里通義實驗室的一篇論文火遍海內外，模型的產品化程序也廣受關注。4月25日，EMO終於上線通義APP，並開放給所有使用者免費使用。

25日，極目新聞記者開啟通義APP，進入“全民舞臺”頻道，看到EMO產品頁面顯示有“全民唱演”。在歌曲、熱梗、表情包中任選一款模板，上傳肖像照片，EMO隨即就能合成影片。

記者隨機生成了一段會說話唱歌的 AI 影片，以及實現無縫對接的動態小影片，最長時間可達1分30秒左右。影片中，人物表情非常到位，任意語音、任意語速、任意影象都可以一一對應。

記者看到，首批上線了80多個EMO模板，包括熱門歌曲《上春山》《野狼disco》等，更不乏網路熱梗“缽缽雞”“回手掏”等。不過，記者嘗試自定義音訊發現，目前暫不開放，只能選擇APP預置的音訊來生成影片。

極目新聞記者周丹

只需要一段音訊、一張照片，就能讓人物開口唱歌說話？是真的！讓奧黛麗赫本唱《上春山》、陶俑仕女說英文RAP、愛因斯坦說中文段子……都能成為現實！

不久前，這款名為EMO的模型因為阿里通義實驗室的一篇論文火遍海內外，模型的產品化程序也廣受關注。4月25日，EMO終於上線通義APP，並開放給所有使用者免費使用。

25日，極目新聞記者開啟通義APP，進入“全民舞臺”頻道，看到EMO產品頁面顯示有“全民唱演”。在歌曲、熱梗、表情包中任選一款模板，上傳肖像照片，EMO隨即就能合成影片。

記者隨機生成了一段會說話唱歌的 AI 影片，以及實現無縫對接的動態小影片，最長時間可達1分30秒左右。影片中，人物表情非常到位，任意語音、任意語速、任意影象都可以一一對應。

記者看到，首批上線了80多個EMO模板，包括熱門歌曲《上春山》《野狼disco》等，更不乏網路熱梗“缽缽雞”“回手掏”等。不過，記者嘗試自定義音訊發現，目前暫不開放，只能選擇APP預置的音訊來生成影片。

上一篇：跨越語言，連... 下一篇：AI虛擬人可準...

猜你喜歡

熱門閱讀

Win11工作列怎麼透明？

Win11工作列怎麼透明？

匿名

2022-09-08

同類推薦

跨越語言，連線世界：第二屆雅努斯論壇“致敬翻譯的力量”

在人工智慧翻譯技術日益精進的今天，手工翻譯的獨特空間與價值體現在何處？面對AI技術的高歌猛進與人類情感的細膩幽微，我們又該如何讓二者相得益彰？2024年4月23日，以“跨越語言，連線世界——致敬翻譯的力量”為主題的第二屆雅努斯計劃頒獎禮暨雅努斯論壇在安徽合肥科大訊飛總部舉辦，學者、譯者和作家圍繞人工智慧時代的文學及人文社科翻譯展開對話，討論譯者和人工智慧翻譯如何透過不同的途徑實現對社會的貢獻。

野史來探究

2024-04-26