一段音訊就能驅動照片唱歌?是真的!EMO模型上線通義APP

首頁 > 科技

一段音訊就能驅動照片唱歌?是真的!EMO模型上線通義APP

來源:糗事百科 釋出時間:2024-04-26 05:36

極目新聞記者 周丹

只需要一段音訊、一張照片,就能讓人物開口唱歌說話?是真的!讓奧黛麗赫本唱《上春山》、陶俑仕女說英文RAP、愛因斯坦說中文段子……都能成為現實!

不久前,這款名為EMO的模型因為阿里通義實驗室的一篇論文火遍海內外,模型的產品化程序也廣受關注。4月25日,EMO終於上線通義APP,並開放給所有使用者免費使用。

25日,極目新聞記者開啟通義APP,進入“全民舞臺”頻道,看到EMO產品頁面顯示有“全民唱演”。在歌曲、熱梗、表情包中任選一款模板,上傳肖像照片,EMO隨即就能合成影片。

記者隨機生成了一段會說話唱歌的 AI 影片,以及實現無縫對接的動態小影片,最長時間可達1分30秒左右。影片中,人物表情非常到位,任意語音、任意語速、任意影象都可以一一對應。

記者看到,首批上線了80多個EMO模板,包括熱門歌曲《上春山》《野狼disco》等,更不乏網路熱梗“缽缽雞”“回手掏”等。不過,記者嘗試自定義音訊發現,目前暫不開放,只能選擇APP預置的音訊來生成影片。

據瞭解,EMO是通義實驗室研發的AI模型,其背後的肖像說話(Talking Head)技術是當前大熱的AIGC領域。EMO之前的Talking Head技術都需針對人臉、人頭部或者身體部分做3D建模,通義實驗室在業界率先提出了弱控制設計,無需建模就可驅動肖像開口說話,不僅降低影片生成成本,還大幅提升了影片生成質量。EMO學習並編碼了人類表達情緒的能力,能將音訊內容和人物的表情、嘴型匹配,還能把音訊的語氣特徵和情緒色彩反映到人物微表情上。

今年2月底,通義實驗室公佈相關論文,EMO隨之成為繼SORA之後最受關注的AI模型之一。現在,通義APP讓所有人都可免費體驗前沿模型的創造力。未來,EMO技術有望應用於數字人、數字教育、影視製作、虛擬陪伴、電商直播等場景。

(來源:極目新聞)

更多精彩資訊請在應用市場下載“極目新聞”客戶端,未經授權請勿轉載,歡迎提供新聞線索,一經採納即付報酬。

極目新聞記者 周丹

只需要一段音訊、一張照片,就能讓人物開口唱歌說話?是真的!讓奧黛麗赫本唱《上春山》、陶俑仕女說英文RAP、愛因斯坦說中文段子……都能成為現實!

不久前,這款名為EMO的模型因為阿里通義實驗室的一篇論文火遍海內外,模型的產品化程序也廣受關注。4月25日,EMO終於上線通義APP,並開放給所有使用者免費使用。

25日,極目新聞記者開啟通義APP,進入“全民舞臺”頻道,看到EMO產品頁面顯示有“全民唱演”。在歌曲、熱梗、表情包中任選一款模板,上傳肖像照片,EMO隨即就能合成影片。

記者隨機生成了一段會說話唱歌的 AI 影片,以及實現無縫對接的動態小影片,最長時間可達1分30秒左右。影片中,人物表情非常到位,任意語音、任意語速、任意影象都可以一一對應。

記者看到,首批上線了80多個EMO模板,包括熱門歌曲《上春山》《野狼disco》等,更不乏網路熱梗“缽缽雞”“回手掏”等。不過,記者嘗試自定義音訊發現,目前暫不開放,只能選擇APP預置的音訊來生成影片。

極目新聞記者 周丹

只需要一段音訊、一張照片,就能讓人物開口唱歌說話?是真的!讓奧黛麗赫本唱《上春山》、陶俑仕女說英文RAP、愛因斯坦說中文段子……都能成為現實!

不久前,這款名為EMO的模型因為阿里通義實驗室的一篇論文火遍海內外,模型的產品化程序也廣受關注。4月25日,EMO終於上線通義APP,並開放給所有使用者免費使用。

25日,極目新聞記者開啟通義APP,進入“全民舞臺”頻道,看到EMO產品頁面顯示有“全民唱演”。在歌曲、熱梗、表情包中任選一款模板,上傳肖像照片,EMO隨即就能合成影片。

記者隨機生成了一段會說話唱歌的 AI 影片,以及實現無縫對接的動態小影片,最長時間可達1分30秒左右。影片中,人物表情非常到位,任意語音、任意語速、任意影象都可以一一對應。

記者看到,首批上線了80多個EMO模板,包括熱門歌曲《上春山》《野狼disco》等,更不乏網路熱梗“缽缽雞”“回手掏”等。不過,記者嘗試自定義音訊發現,目前暫不開放,只能選擇APP預置的音訊來生成影片。

極目新聞記者 周丹

只需要一段音訊、一張照片,就能讓人物開口唱歌說話?是真的!讓奧黛麗赫本唱《上春山》、陶俑仕女說英文RAP、愛因斯坦說中文段子……都能成為現實!

不久前,這款名為EMO的模型因為阿里通義實驗室的一篇論文火遍海內外,模型的產品化程序也廣受關注。4月25日,EMO終於上線通義APP,並開放給所有使用者免費使用。

25日,極目新聞記者開啟通義APP,進入“全民舞臺”頻道,看到EMO產品頁面顯示有“全民唱演”。在歌曲、熱梗、表情包中任選一款模板,上傳肖像照片,EMO隨即就能合成影片。

記者隨機生成了一段會說話唱歌的 AI 影片,以及實現無縫對接的動態小影片,最長時間可達1分30秒左右。影片中,人物表情非常到位,任意語音、任意語速、任意影象都可以一一對應。

記者看到,首批上線了80多個EMO模板,包括熱門歌曲《上春山》《野狼disco》等,更不乏網路熱梗“缽缽雞”“回手掏”等。不過,記者嘗試自定義音訊發現,目前暫不開放,只能選擇APP預置的音訊來生成影片。

上一篇:跨越語言,連... 下一篇:AI虛擬人可準...
猜你喜歡
熱門閱讀
同類推薦