東哥數字人如何跨過“恐怖谷”

首頁 > 科技

東哥數字人如何跨過“恐怖谷”

來源:追劇小能手 釋出時間:2024-04-26 15:33

出品|虎嗅商業消費組

作者|苗正卿

題圖|視覺中國

劉強東AI數字人在4月22日下晝第三次出現在京東採銷直播間。

 

和4月16日、19日東哥數字人直播相比,4月22日的直播增加了數字人助播以及多機位切換。京東雲言犀負責人向虎嗅透露,接下來團隊的長遠目標是希望打造出能夠“深度還原思想、認知的數字人”,在這一計劃中,數字人不僅可以像真人一樣帶貨,甚至可以像真人一樣分享對世界的深層認知、能夠傳遞更真實的感情與情緒。“但這可能需要更長的時間。”

 

有分析人士向虎嗅指出,眼下襬在京東數字人面前的“短期”挑戰可能並非技術側。“京東肯定是希望數字人技術給更多品牌方提供服務,在這個過程中找到更多技術落地場景是關鍵,一方面是數字人到底能夠給京東直播間帶來多大的增量(即有多少品牌,願意選擇數字人帶貨),另一方面在非直播場景京東數字人能否有更廣闊的想象空間。”

 

另有AIGC資深從業者認為,目前在國內數字人直播領域,“表情模擬和動作豐富度,是兩個技術核心考察點。具體來說,是唇形以及動作模擬模擬。目前國內垂直於這一領域的技術型公司有矽基智慧等代表,而在網際網路大廠中,京東、阿里、位元組等都在佈局和發力相關技術。”該人士認為,整體看這個賽道的關鍵競爭點依然是三要素:算力、演算法以及資料,“網際網路大廠中,京東的底層優勢是資料。”

 

京東雲言犀負責人告訴虎嗅,4月16日直播後,有多個品牌找到他們詢問合作的可能性,這也讓他有了一些新的思路。“現在很多科技圈、車圈、網際網路圈CEO開始做短影片、直播,在這個風口裡,數字人技術可能有很多可以嘗試的地方。”

 

東哥為何自己上?

 

虎嗅獲悉,在2023年下半年,京東雲言犀團隊基於言犀大模型升級了數字人產品,並嘗試了零售、金融、健康等多個領域。當時,京東雲言犀數字人直播主要發力的是零售,從帶貨資料和互動指數看,這一系列直播的表現超過預期。

 

這段早期的“測試”,讓京東內部對於數字人直播這件事的興趣和重視度更高了。“大約在春節前後,團隊想嘗試一下英語直播,因為我們此前推出的幾個數字人都是做中文直播,想試試多語言。”京東雲言犀負責人表示。

 

2024年春節後,京東雲言犀團隊開始發力推廣數字人產品,他們希望找到一個讓京東數字人技術和產品成功“出圈”的方法。討論後,他們決定大膽一點,讓老闆試試。

 

京東雲言犀演算法總監向虎嗅描述了這一過程:劉強東配合拍攝了影片素材,在“外形”生成後,京東雲言犀再透過大模型去生成了劉強東數字人的聲音。在完成外形和聲音的測試調整後,京東內部就開始進行直播策劃了。

 

4月16日劉強東數字人第一次直播時,京東雲言犀希望做一次圖靈測試。他們想了兩個方案:第一個方案是,同時做兩場直播,但一開始不說是數字人,看看使用者能否分辨出;第二個方案是,對外宣傳“劉強東要直播了”,但兩場直播都是劉強東數字人,看使用者的接受度。

 

經過反覆探討,最終團隊選擇了第二個方案。

 

“我們最關注的是120秒挑戰。我們透過資料分析以及心理學研究,很清楚使用者看到一個形象時,前120秒至關重要,如果使用者在120秒內發覺這是一個特別假的形象、或者對這個形象產生厭惡,往往會不再消費。這也是常說的恐怖谷效應,我們想測試的關鍵點是:120秒內,使用者是否會出現恐怖谷效應。”京東雲言犀負責人向虎嗅表示。

 

從4月16日直播的資料看,京東雲言犀的120秒挑戰是過關的:在直播的第一小時內,總GMV達到5000萬元。“我們發現,很多使用者似乎沒有意識到這是數字人。”京東雲言犀負責人說。

 

目前處於第二階段

 

據京東雲言犀負責人透露,眼下言犀數字人發展到了第二階段。“第一階段,是向真人看齊,這類數字人可以在黃金時段之外直播帶貨,這些數字人可以對產品進行清晰的介紹;第二階段可以媲美真人,並承擔一些獨立任務,比如在黃金時段講解爆品;第三階段的數字人要融合真人的文化背景和思維邏輯,可以視為真人的數字分身。”

 

虎嗅獲悉,京東雲言犀數字人技術會根據不同的場景,採取複合技術方案,其中有兩個常見的技術路線:其一是完全端到端的生成,即在生成數字人過程中並不在任何環節進行顯示建模;另一種,則是上文提及的利用一張照片或者3~5分鐘影片素材,對人臉建3D Mesh模型,然後再去控制他的表情、唇型,然後再做紋理的渲染。這兩個方案其實團隊在不同場景裡都會去用。

 

最大的技術難點,是大姿態:即數字人擁有複雜的唇形、模擬動作、微表情。“如果想實現大姿態數字人,首先會遇到光線挑戰,視覺上很容易發現打光不均勻,會讓使用者覺得數字人身上一塊白一塊黑;以及會遇到唇形挑戰,這是核心難點,大姿態數字人並不會一直正對著鏡頭說話,你需要在各個角度實現擬真效果。”

 

“我們的核心技術思路是端到端:建模-驅動-渲染的一體化。和Sora的思路很像,但區別在於Sora一開始就聚焦於通用內容影片方案,而言犀大模型聚焦於人物影片生成。未來我們將可能參考部分Sora技術,按效果優先,逐步擴充套件覆蓋的領域。”京東雲言犀負責人說。

 

在這個路徑中,模型的推理最佳化以及計算效率是另一個關鍵點。京東雲言犀的大模型專案組裡,有一個單獨的戰鬥小組負責推理最佳化。相關人士告訴虎嗅,行業內常見的模型蒸餾和模型量化,一般是做bit4或者bit8,而京東採取了不同的策略,透過CPU,而非GPU進行推理,降低應用成本。

 

“原來在大模型裡每一個模型引數應該是浮點數,一般是用32或64位來表示浮點數的一個引數的,但應用時浮點數一方面佔的空間很大;二是運算比較慢,浮點運算相對比較慢,所以我們做量化就是用一個八倍的整數來近似模擬一個16位的浮點數。甚至我們可以做到用四位就可以來模擬一個引數。這樣一方面使得模型的大小會變小,同時使得整個運算速度會極大加快”上述人士表示。

 

有AIGC領域資深從業者告訴虎嗅,目前國內可以做雲端數字人服務的公司並不少,而在文字合成聲音等領域,大部分頭部網際網路公司的實力相近。“從技術和落地看,京東言犀數字人在推理最佳化是有優勢的,而其海量商品資料對於數字人產品是一個關鍵助力,它可以針對不同產品去更快速、高效地做最佳化。”

 

尚需解決的挑戰

 

互動能力進級以及挖掘更多商業化場景,是京東雲言犀數字人尚需解決的。

 

過去幾次直播,京東雲言犀團隊和京東採銷直播間一直深度協作:簡單來說,京東雲言犀團隊負責數字人技術、呈現,並根據每一次直播的效果去最佳化,比如第三次直播時劉強東數字人的互動效果比第一場直播明顯更好;而京東採銷直播間則負責選品、運營等一系列“業務側”工作,過去三場直播中京東採銷直播間在選品上以平臺爆品為主。

 

在互動方面,目前京東雲言犀數字人尚無法媲美真人互動。在過去的幾次直播中,除了透過文字彈幕使用者留言外,劉強東數字人有時會針對一些共性問題做回答。但相比於真人直播間常見的“插科打諢”、“玩梗互動”,目前的數字人尚顯“稚嫩”。“比如很難像董宇輝那樣,針對一個產品,溘然有了靈感,開始講文學、文化,目前還無法做到這一點,也就是很難讓數字人有真正的思想與意識。”

 

另一個挑戰是場景。

 

據京東雲言犀團隊人士透露,他們目前在直播之外,在短影片等領域也服務了一些B端客戶,比如在一些地產公司裡,會透過數字人自動生成講房影片。不外相比於想象中能夠落地的場景,目前真實服務的場景相對有限。

 

618或成為京東雲言犀數字人的“期中考試”,據悉京東內部已經對數字人在618期間的表現以厚望,而AI也被京東CEO許冉視為2024年618的關鍵點。言犀數字人能否成為京東的關鍵引擎?一個多月後即將揭曉。

出品|虎嗅商業消費組

作者|苗正卿

題圖|視覺中國

劉強東AI數字人在4月22日下晝第三次出現在京東採銷直播間。

 

和4月16日、19日東哥數字人直播相比,4月22日的直播增加了數字人助播以及多機位切換。京東雲言犀負責人向虎嗅透露,接下來團隊的長遠目標是希望打造出能夠“深度還原思想、認知的數字人”,在這一計劃中,數字人不僅可以像真人一樣帶貨,甚至可以像真人一樣分享對世界的深層認知、能夠傳遞更真實的感情與情緒。“但這可能需要更長的時間。”

 

有分析人士向虎嗅指出,眼下襬在京東數字人面前的“短期”挑戰可能並非技術側。“京東肯定是希望數字人技術給更多品牌方提供服務,在這個過程中找到更多技術落地場景是關鍵,一方面是數字人到底能夠給京東直播間帶來多大的增量(即有多少品牌,願意選擇數字人帶貨),另一方面在非直播場景京東數字人能否有更廣闊的想象空間。”

 

另有AIGC資深從業者認為,目前在國內數字人直播領域,“表情模擬和動作豐富度,是兩個技術核心考察點。具體來說,是唇形以及動作模擬模擬。目前國內垂直於這一領域的技術型公司有矽基智慧等代表,而在網際網路大廠中,京東、阿里、位元組等都在佈局和發力相關技術。”該人士認為,整體看這個賽道的關鍵競爭點依然是三要素:算力、演算法以及資料,“網際網路大廠中,京東的底層優勢是資料。”

 

京東雲言犀負責人告訴虎嗅,4月16日直播後,有多個品牌找到他們詢問合作的可能性,這也讓他有了一些新的思路。“現在很多科技圈、車圈、網際網路圈CEO開始做短影片、直播,在這個風口裡,數字人技術可能有很多可以嘗試的地方。”

 

東哥為何自己上?

 

虎嗅獲悉,在2023年下半年,京東雲言犀團隊基於言犀大模型升級了數字人產品,並嘗試了零售、金融、健康等多個領域。當時,京東雲言犀數字人直播主要發力的是零售,從帶貨資料和互動指數看,這一系列直播的表現超過預期。

 

這段早期的“測試”,讓京東內部對於數字人直播這件事的興趣和重視度更高了。“大約在春節前後,團隊想嘗試一下英語直播,因為我們此前推出的幾個數字人都是做中文直播,想試試多語言。”京東雲言犀負責人表示。

 

2024年春節後,京東雲言犀團隊開始發力推廣數字人產品,他們希望找到一個讓京東數字人技術和產品成功“出圈”的方法。討論後,他們決定大膽一點,讓老闆試試。

 

京東雲言犀演算法總監向虎嗅描述了這一過程:劉強東配合拍攝了影片素材,在“外形”生成後,京東雲言犀再透過大模型去生成了劉強東數字人的聲音。在完成外形和聲音的測試調整後,京東內部就開始進行直播策劃了。

 

4月16日劉強東數字人第一次直播時,京東雲言犀希望做一次圖靈測試。他們想了兩個方案:第一個方案是,同時做兩場直播,但一開始不說是數字人,看看使用者能否分辨出;第二個方案是,對外宣傳“劉強東要直播了”,但兩場直播都是劉強東數字人,看使用者的接受度。

 

經過反覆探討,最終團隊選擇了第二個方案。

 

“我們最關注的是120秒挑戰。我們透過資料分析以及心理學研究,很清楚使用者看到一個形象時,前120秒至關重要,如果使用者在120秒內發覺這是一個特別假的形象、或者對這個形象產生厭惡,往往會不再消費。這也是常說的恐怖谷效應,我們想測試的關鍵點是:120秒內,使用者是否會出現恐怖谷效應。”京東雲言犀負責人向虎嗅表示。

 

從4月16日直播的資料看,京東雲言犀的120秒挑戰是過關的:在直播的第一小時內,總GMV達到5000萬元。“我們發現,很多使用者似乎沒有意識到這是數字人。”京東雲言犀負責人說。

 

目前處於第二階段

 

據京東雲言犀負責人透露,眼下言犀數字人發展到了第二階段。“第一階段,是向真人看齊,這類數字人可以在黃金時段之外直播帶貨,這些數字人可以對產品進行清晰的介紹;第二階段可以媲美真人,並承擔一些獨立任務,比如在黃金時段講解爆品;第三階段的數字人要融合真人的文化背景和思維邏輯,可以視為真人的數字分身。”

 

虎嗅獲悉,京東雲言犀數字人技術會根據不同的場景,採取複合技術方案,其中有兩個常見的技術路線:其一是完全端到端的生成,即在生成數字人過程中並不在任何環節進行顯示建模;另一種,則是上文提及的利用一張照片或者3~5分鐘影片素材,對人臉建3D Mesh模型,然後再去控制他的表情、唇型,然後再做紋理的渲染。這兩個方案其實團隊在不同場景裡都會去用。

 

最大的技術難點,是大姿態:即數字人擁有複雜的唇形、模擬動作、微表情。“如果想實現大姿態數字人,首先會遇到光線挑戰,視覺上很容易發現打光不均勻,會讓使用者覺得數字人身上一塊白一塊黑;以及會遇到唇形挑戰,這是核心難點,大姿態數字人並不會一直正對著鏡頭說話,你需要在各個角度實現擬真效果。”

 

“我們的核心技術思路是端到端:建模-驅動-渲染的一體化。和Sora的思路很像,但區別在於Sora一開始就聚焦於通用內容影片方案,而言犀大模型聚焦於人物影片生成。未來我們將可能參考部分Sora技術,按效果優先,逐步擴充套件覆蓋的領域。”京東雲言犀負責人說。

 

在這個路徑中,模型的推理最佳化以及計算效率是另一個關鍵點。京東雲言犀的大模型專案組裡,有一個單獨的戰鬥小組負責推理最佳化。相關人士告訴虎嗅,行業內常見的模型蒸餾和模型量化,一般是做bit4或者bit8,而京東採取了不同的策略,透過CPU,而非GPU進行推理,降低應用成本。

 

“原來在大模型裡每一個模型引數應該是浮點數,一般是用32或64位來表示浮點數的一個引數的,但應用時浮點數一方面佔的空間很大;二是運算比較慢,浮點運算相對比較慢,所以我們做量化就是用一個八倍的整數來近似模擬一個16位的浮點數。甚至我們可以做到用四位就可以來模擬一個引數。這樣一方面使得模型的大小會變小,同時使得整個運算速度會極大加快”上述人士表示。

 

有AIGC領域資深從業者告訴虎嗅,目前國內可以做雲端數字人服務的公司並不少,而在文字合成聲音等領域,大部分頭部網際網路公司的實力相近。“從技術和落地看,京東言犀數字人在推理最佳化是有優勢的,而其海量商品資料對於數字人產品是一個關鍵助力,它可以針對不同產品去更快速、高效地做最佳化。”

 

尚需解決的挑戰

 

互動能力進級以及挖掘更多商業化場景,是京東雲言犀數字人尚需解決的。

 

過去幾次直播,京東雲言犀團隊和京東採銷直播間一直深度協作:簡單來說,京東雲言犀團隊負責數字人技術、呈現,並根據每一次直播的效果去最佳化,比如第三次直播時劉強東數字人的互動效果比第一場直播明顯更好;而京東採銷直播間則負責選品、運營等一系列“業務側”工作,過去三場直播中京東採銷直播間在選品上以平臺爆品為主。

 

在互動方面,目前京東雲言犀數字人尚無法媲美真人互動。在過去的幾次直播中,除了透過文字彈幕使用者留言外,劉強東數字人有時會針對一些共性問題做回答。但相比於真人直播間常見的“插科打諢”、“玩梗互動”,目前的數字人尚顯“稚嫩”。“比如很難像董宇輝那樣,針對一個產品,溘然有了靈感,開始講文學、文化,目前還無法做到這一點,也就是很難讓數字人有真正的思想與意識。”

 

另一個挑戰是場景。

 

據京東雲言犀團隊人士透露,他們目前在直播之外,在短影片等領域也服務了一些B端客戶,比如在一些地產公司裡,會透過數字人自動生成講房影片。不外相比於想象中能夠落地的場景,目前真實服務的場景相對有限。

 

618或成為京東雲言犀數字人的“期中考試”,據悉京東內部已經對數字人在618期間的表現以厚望,而AI也被京東CEO許冉視為2024年618的關鍵點。言犀數字人能否成為京東的關鍵引擎?一個多月後即將揭曉。

出品|虎嗅商業消費組

作者|苗正卿

題圖|視覺中國

劉強東AI數字人在4月22日下晝第三次出現在京東採銷直播間。

 

和4月16日、19日東哥數字人直播相比,4月22日的直播增加了數字人助播以及多機位切換。京東雲言犀負責人向虎嗅透露,接下來團隊的長遠目標是希望打造出能夠“深度還原思想、認知的數字人”,在這一計劃中,數字人不僅可以像真人一樣帶貨,甚至可以像真人一樣分享對世界的深層認知、能夠傳遞更真實的感情與情緒。“但這可能需要更長的時間。”

 

有分析人士向虎嗅指出,眼下襬在京東數字人面前的“短期”挑戰可能並非技術側。“京東肯定是希望數字人技術給更多品牌方提供服務,在這個過程中找到更多技術落地場景是關鍵,一方面是數字人到底能夠給京東直播間帶來多大的增量(即有多少品牌,願意選擇數字人帶貨),另一方面在非直播場景京東數字人能否有更廣闊的想象空間。”

 

另有AIGC資深從業者認為,目前在國內數字人直播領域,“表情模擬和動作豐富度,是兩個技術核心考察點。具體來說,是唇形以及動作模擬模擬。目前國內垂直於這一領域的技術型公司有矽基智慧等代表,而在網際網路大廠中,京東、阿里、位元組等都在佈局和發力相關技術。”該人士認為,整體看這個賽道的關鍵競爭點依然是三要素:算力、演算法以及資料,“網際網路大廠中,京東的底層優勢是資料。”

 

京東雲言犀負責人告訴虎嗅,4月16日直播後,有多個品牌找到他們詢問合作的可能性,這也讓他有了一些新的思路。“現在很多科技圈、車圈、網際網路圈CEO開始做短影片、直播,在這個風口裡,數字人技術可能有很多可以嘗試的地方。”

 

東哥為何自己上?

 

虎嗅獲悉,在2023年下半年,京東雲言犀團隊基於言犀大模型升級了數字人產品,並嘗試了零售、金融、健康等多個領域。當時,京東雲言犀數字人直播主要發力的是零售,從帶貨資料和互動指數看,這一系列直播的表現超過預期。

 

這段早期的“測試”,讓京東內部對於數字人直播這件事的興趣和重視度更高了。“大約在春節前後,團隊想嘗試一下英語直播,因為我們此前推出的幾個數字人都是做中文直播,想試試多語言。”京東雲言犀負責人表示。

 

2024年春節後,京東雲言犀團隊開始發力推廣數字人產品,他們希望找到一個讓京東數字人技術和產品成功“出圈”的方法。討論後,他們決定大膽一點,讓老闆試試。

 

京東雲言犀演算法總監向虎嗅描述了這一過程:劉強東配合拍攝了影片素材,在“外形”生成後,京東雲言犀再透過大模型去生成了劉強東數字人的聲音。在完成外形和聲音的測試調整後,京東內部就開始進行直播策劃了。

 

4月16日劉強東數字人第一次直播時,京東雲言犀希望做一次圖靈測試。他們想了兩個方案:第一個方案是,同時做兩場直播,但一開始不說是數字人,看看使用者能否分辨出;第二個方案是,對外宣傳“劉強東要直播了”,但兩場直播都是劉強東數字人,看使用者的接受度。

 

經過反覆探討,最終團隊選擇了第二個方案。

 

“我們最關注的是120秒挑戰。我們透過資料分析以及心理學研究,很清楚使用者看到一個形象時,前120秒至關重要,如果使用者在120秒內發覺這是一個特別假的形象、或者對這個形象產生厭惡,往往會不再消費。這也是常說的恐怖谷效應,我們想測試的關鍵點是:120秒內,使用者是否會出現恐怖谷效應。”京東雲言犀負責人向虎嗅表示。

 

從4月16日直播的資料看,京東雲言犀的120秒挑戰是過關的:在直播的第一小時內,總GMV達到5000萬元。“我們發現,很多使用者似乎沒有意識到這是數字人。”京東雲言犀負責人說。

 

目前處於第二階段

 

據京東雲言犀負責人透露,眼下言犀數字人發展到了第二階段。“第一階段,是向真人看齊,這類數字人可以在黃金時段之外直播帶貨,這些數字人可以對產品進行清晰的介紹;第二階段可以媲美真人,並承擔一些獨立任務,比如在黃金時段講解爆品;第三階段的數字人要融合真人的文化背景和思維邏輯,可以視為真人的數字分身。”

 

虎嗅獲悉,京東雲言犀數字人技術會根據不同的場景,採取複合技術方案,其中有兩個常見的技術路線:其一是完全端到端的生成,即在生成數字人過程中並不在任何環節進行顯示建模;另一種,則是上文提及的利用一張照片或者3~5分鐘影片素材,對人臉建3D Mesh模型,然後再去控制他的表情、唇型,然後再做紋理的渲染。這兩個方案其實團隊在不同場景裡都會去用。

 

最大的技術難點,是大姿態:即數字人擁有複雜的唇形、模擬動作、微表情。“如果想實現大姿態數字人,首先會遇到光線挑戰,視覺上很容易發現打光不均勻,會讓使用者覺得數字人身上一塊白一塊黑;以及會遇到唇形挑戰,這是核心難點,大姿態數字人並不會一直正對著鏡頭說話,你需要在各個角度實現擬真效果。”

 

“我們的核心技術思路是端到端:建模-驅動-渲染的一體化。和Sora的思路很像,但區別在於Sora一開始就聚焦於通用內容影片方案,而言犀大模型聚焦於人物影片生成。未來我們將可能參考部分Sora技術,按效果優先,逐步擴充套件覆蓋的領域。”京東雲言犀負責人說。

 

在這個路徑中,模型的推理最佳化以及計算效率是另一個關鍵點。京東雲言犀的大模型專案組裡,有一個單獨的戰鬥小組負責推理最佳化。相關人士告訴虎嗅,行業內常見的模型蒸餾和模型量化,一般是做bit4或者bit8,而京東採取了不同的策略,透過CPU,而非GPU進行推理,降低應用成本。

 

“原來在大模型裡每一個模型引數應該是浮點數,一般是用32或64位來表示浮點數的一個引數的,但應用時浮點數一方面佔的空間很大;二是運算比較慢,浮點運算相對比較慢,所以我們做量化就是用一個八倍的整數來近似模擬一個16位的浮點數。甚至我們可以做到用四位就可以來模擬一個引數。這樣一方面使得模型的大小會變小,同時使得整個運算速度會極大加快”上述人士表示。

 

有AIGC領域資深從業者告訴虎嗅,目前國內可以做雲端數字人服務的公司並不少,而在文字合成聲音等領域,大部分頭部網際網路公司的實力相近。“從技術和落地看,京東言犀數字人在推理最佳化是有優勢的,而其海量商品資料對於數字人產品是一個關鍵助力,它可以針對不同產品去更快速、高效地做最佳化。”

 

尚需解決的挑戰

 

互動能力進級以及挖掘更多商業化場景,是京東雲言犀數字人尚需解決的。

 

過去幾次直播,京東雲言犀團隊和京東採銷直播間一直深度協作:簡單來說,京東雲言犀團隊負責數字人技術、呈現,並根據每一次直播的效果去最佳化,比如第三次直播時劉強東數字人的互動效果比第一場直播明顯更好;而京東採銷直播間則負責選品、運營等一系列“業務側”工作,過去三場直播中京東採銷直播間在選品上以平臺爆品為主。

 

在互動方面,目前京東雲言犀數字人尚無法媲美真人互動。在過去的幾次直播中,除了透過文字彈幕使用者留言外,劉強東數字人有時會針對一些共性問題做回答。但相比於真人直播間常見的“插科打諢”、“玩梗互動”,目前的數字人尚顯“稚嫩”。“比如很難像董宇輝那樣,針對一個產品,溘然有了靈感,開始講文學、文化,目前還無法做到這一點,也就是很難讓數字人有真正的思想與意識。”

 

另一個挑戰是場景。

 

據京東雲言犀團隊人士透露,他們目前在直播之外,在短影片等領域也服務了一些B端客戶,比如在一些地產公司裡,會透過數字人自動生成講房影片。不外相比於想象中能夠落地的場景,目前真實服務的場景相對有限。

 

618或成為京東雲言犀數字人的“期中考試”,據悉京東內部已經對數字人在618期間的表現以厚望,而AI也被京東CEO許冉視為2024年618的關鍵點。言犀數字人能否成為京東的關鍵引擎?一個多月後即將揭曉。

出品|虎嗅商業消費組

作者|苗正卿

題圖|視覺中國

劉強東AI數字人在4月22日下晝第三次出現在京東採銷直播間。

 

和4月16日、19日東哥數字人直播相比,4月22日的直播增加了數字人助播以及多機位切換。京東雲言犀負責人向虎嗅透露,接下來團隊的長遠目標是希望打造出能夠“深度還原思想、認知的數字人”,在這一計劃中,數字人不僅可以像真人一樣帶貨,甚至可以像真人一樣分享對世界的深層認知、能夠傳遞更真實的感情與情緒。“但這可能需要更長的時間。”

 

有分析人士向虎嗅指出,眼下襬在京東數字人面前的“短期”挑戰可能並非技術側。“京東肯定是希望數字人技術給更多品牌方提供服務,在這個過程中找到更多技術落地場景是關鍵,一方面是數字人到底能夠給京東直播間帶來多大的增量(即有多少品牌,願意選擇數字人帶貨),另一方面在非直播場景京東數字人能否有更廣闊的想象空間。”

 

另有AIGC資深從業者認為,目前在國內數字人直播領域,“表情模擬和動作豐富度,是兩個技術核心考察點。具體來說,是唇形以及動作模擬模擬。目前國內垂直於這一領域的技術型公司有矽基智慧等代表,而在網際網路大廠中,京東、阿里、位元組等都在佈局和發力相關技術。”該人士認為,整體看這個賽道的關鍵競爭點依然是三要素:算力、演算法以及資料,“網際網路大廠中,京東的底層優勢是資料。”

 

京東雲言犀負責人告訴虎嗅,4月16日直播後,有多個品牌找到他們詢問合作的可能性,這也讓他有了一些新的思路。“現在很多科技圈、車圈、網際網路圈CEO開始做短影片、直播,在這個風口裡,數字人技術可能有很多可以嘗試的地方。”

 

東哥為何自己上?

 

虎嗅獲悉,在2023年下半年,京東雲言犀團隊基於言犀大模型升級了數字人產品,並嘗試了零售、金融、健康等多個領域。當時,京東雲言犀數字人直播主要發力的是零售,從帶貨資料和互動指數看,這一系列直播的表現超過預期。

 

這段早期的“測試”,讓京東內部對於數字人直播這件事的興趣和重視度更高了。“大約在春節前後,團隊想嘗試一下英語直播,因為我們此前推出的幾個數字人都是做中文直播,想試試多語言。”京東雲言犀負責人表示。

 

2024年春節後,京東雲言犀團隊開始發力推廣數字人產品,他們希望找到一個讓京東數字人技術和產品成功“出圈”的方法。討論後,他們決定大膽一點,讓老闆試試。

 

京東雲言犀演算法總監向虎嗅描述了這一過程:劉強東配合拍攝了影片素材,在“外形”生成後,京東雲言犀再透過大模型去生成了劉強東數字人的聲音。在完成外形和聲音的測試調整後,京東內部就開始進行直播策劃了。

 

4月16日劉強東數字人第一次直播時,京東雲言犀希望做一次圖靈測試。他們想了兩個方案:第一個方案是,同時做兩場直播,但一開始不說是數字人,看看使用者能否分辨出;第二個方案是,對外宣傳“劉強東要直播了”,但兩場直播都是劉強東數字人,看使用者的接受度。

 

經過反覆探討,最終團隊選擇了第二個方案。

 

“我們最關注的是120秒挑戰。我們透過資料分析以及心理學研究,很清楚使用者看到一個形象時,前120秒至關重要,如果使用者在120秒內發覺這是一個特別假的形象、或者對這個形象產生厭惡,往往會不再消費。這也是常說的恐怖谷效應,我們想測試的關鍵點是:120秒內,使用者是否會出現恐怖谷效應。”京東雲言犀負責人向虎嗅表示。

 

從4月16日直播的資料看,京東雲言犀的120秒挑戰是過關的:在直播的第一小時內,總GMV達到5000萬元。“我們發現,很多使用者似乎沒有意識到這是數字人。”京東雲言犀負責人說。

 

目前處於第二階段

 

據京東雲言犀負責人透露,眼下言犀數字人發展到了第二階段。“第一階段,是向真人看齊,這類數字人可以在黃金時段之外直播帶貨,這些數字人可以對產品進行清晰的介紹;第二階段可以媲美真人,並承擔一些獨立任務,比如在黃金時段講解爆品;第三階段的數字人要融合真人的文化背景和思維邏輯,可以視為真人的數字分身。”

 

虎嗅獲悉,京東雲言犀數字人技術會根據不同的場景,採取複合技術方案,其中有兩個常見的技術路線:其一是完全端到端的生成,即在生成數字人過程中並不在任何環節進行顯示建模;另一種,則是上文提及的利用一張照片或者3~5分鐘影片素材,對人臉建3D Mesh模型,然後再去控制他的表情、唇型,然後再做紋理的渲染。這兩個方案其實團隊在不同場景裡都會去用。

 

最大的技術難點,是大姿態:即數字人擁有複雜的唇形、模擬動作、微表情。“如果想實現大姿態數字人,首先會遇到光線挑戰,視覺上很容易發現打光不均勻,會讓使用者覺得數字人身上一塊白一塊黑;以及會遇到唇形挑戰,這是核心難點,大姿態數字人並不會一直正對著鏡頭說話,你需要在各個角度實現擬真效果。”

 

“我們的核心技術思路是端到端:建模-驅動-渲染的一體化。和Sora的思路很像,但區別在於Sora一開始就聚焦於通用內容影片方案,而言犀大模型聚焦於人物影片生成。未來我們將可能參考部分Sora技術,按效果優先,逐步擴充套件覆蓋的領域。”京東雲言犀負責人說。

 

在這個路徑中,模型的推理最佳化以及計算效率是另一個關鍵點。京東雲言犀的大模型專案組裡,有一個單獨的戰鬥小組負責推理最佳化。相關人士告訴虎嗅,行業內常見的模型蒸餾和模型量化,一般是做bit4或者bit8,而京東採取了不同的策略,透過CPU,而非GPU進行推理,降低應用成本。

 

“原來在大模型裡每一個模型引數應該是浮點數,一般是用32或64位來表示浮點數的一個引數的,但應用時浮點數一方面佔的空間很大;二是運算比較慢,浮點運算相對比較慢,所以我們做量化就是用一個八倍的整數來近似模擬一個16位的浮點數。甚至我們可以做到用四位就可以來模擬一個引數。這樣一方面使得模型的大小會變小,同時使得整個運算速度會極大加快”上述人士表示。

 

有AIGC領域資深從業者告訴虎嗅,目前國內可以做雲端數字人服務的公司並不少,而在文字合成聲音等領域,大部分頭部網際網路公司的實力相近。“從技術和落地看,京東言犀數字人在推理最佳化是有優勢的,而其海量商品資料對於數字人產品是一個關鍵助力,它可以針對不同產品去更快速、高效地做最佳化。”

 

尚需解決的挑戰

 

互動能力進級以及挖掘更多商業化場景,是京東雲言犀數字人尚需解決的。

 

過去幾次直播,京東雲言犀團隊和京東採銷直播間一直深度協作:簡單來說,京東雲言犀團隊負責數字人技術、呈現,並根據每一次直播的效果去最佳化,比如第三次直播時劉強東數字人的互動效果比第一場直播明顯更好;而京東採銷直播間則負責選品、運營等一系列“業務側”工作,過去三場直播中京東採銷直播間在選品上以平臺爆品為主。

 

在互動方面,目前京東雲言犀數字人尚無法媲美真人互動。在過去的幾次直播中,除了透過文字彈幕使用者留言外,劉強東數字人有時會針對一些共性問題做回答。但相比於真人直播間常見的“插科打諢”、“玩梗互動”,目前的數字人尚顯“稚嫩”。“比如很難像董宇輝那樣,針對一個產品,溘然有了靈感,開始講文學、文化,目前還無法做到這一點,也就是很難讓數字人有真正的思想與意識。”

 

另一個挑戰是場景。

 

據京東雲言犀團隊人士透露,他們目前在直播之外,在短影片等領域也服務了一些B端客戶,比如在一些地產公司裡,會透過數字人自動生成講房影片。不外相比於想象中能夠落地的場景,目前真實服務的場景相對有限。

 

618或成為京東雲言犀數字人的“期中考試”,據悉京東內部已經對數字人在618期間的表現以厚望,而AI也被京東CEO許冉視為2024年618的關鍵點。言犀數字人能否成為京東的關鍵引擎?一個多月後即將揭曉。

出品|虎嗅商業消費組

作者|苗正卿

題圖|視覺中國

劉強東AI數字人在4月22日下晝第三次出現在京東採銷直播間。

 

和4月16日、19日東哥數字人直播相比,4月22日的直播增加了數字人助播以及多機位切換。京東雲言犀負責人向虎嗅透露,接下來團隊的長遠目標是希望打造出能夠“深度還原思想、認知的數字人”,在這一計劃中,數字人不僅可以像真人一樣帶貨,甚至可以像真人一樣分享對世界的深層認知、能夠傳遞更真實的感情與情緒。“但這可能需要更長的時間。”

 

有分析人士向虎嗅指出,眼下襬在京東數字人面前的“短期”挑戰可能並非技術側。“京東肯定是希望數字人技術給更多品牌方提供服務,在這個過程中找到更多技術落地場景是關鍵,一方面是數字人到底能夠給京東直播間帶來多大的增量(即有多少品牌,願意選擇數字人帶貨),另一方面在非直播場景京東數字人能否有更廣闊的想象空間。”

 

另有AIGC資深從業者認為,目前在國內數字人直播領域,“表情模擬和動作豐富度,是兩個技術核心考察點。具體來說,是唇形以及動作模擬模擬。目前國內垂直於這一領域的技術型公司有矽基智慧等代表,而在網際網路大廠中,京東、阿里、位元組等都在佈局和發力相關技術。”該人士認為,整體看這個賽道的關鍵競爭點依然是三要素:算力、演算法以及資料,“網際網路大廠中,京東的底層優勢是資料。”

 

京東雲言犀負責人告訴虎嗅,4月16日直播後,有多個品牌找到他們詢問合作的可能性,這也讓他有了一些新的思路。“現在很多科技圈、車圈、網際網路圈CEO開始做短影片、直播,在這個風口裡,數字人技術可能有很多可以嘗試的地方。”

 

東哥為何自己上?

 

虎嗅獲悉,在2023年下半年,京東雲言犀團隊基於言犀大模型升級了數字人產品,並嘗試了零售、金融、健康等多個領域。當時,京東雲言犀數字人直播主要發力的是零售,從帶貨資料和互動指數看,這一系列直播的表現超過預期。

 

這段早期的“測試”,讓京東內部對於數字人直播這件事的興趣和重視度更高了。“大約在春節前後,團隊想嘗試一下英語直播,因為我們此前推出的幾個數字人都是做中文直播,想試試多語言。”京東雲言犀負責人表示。

 

2024年春節後,京東雲言犀團隊開始發力推廣數字人產品,他們希望找到一個讓京東數字人技術和產品成功“出圈”的方法。討論後,他們決定大膽一點,讓老闆試試。

 

京東雲言犀演算法總監向虎嗅描述了這一過程:劉強東配合拍攝了影片素材,在“外形”生成後,京東雲言犀再透過大模型去生成了劉強東數字人的聲音。在完成外形和聲音的測試調整後,京東內部就開始進行直播策劃了。

 

4月16日劉強東數字人第一次直播時,京東雲言犀希望做一次圖靈測試。他們想了兩個方案:第一個方案是,同時做兩場直播,但一開始不說是數字人,看看使用者能否分辨出;第二個方案是,對外宣傳“劉強東要直播了”,但兩場直播都是劉強東數字人,看使用者的接受度。

 

經過反覆探討,最終團隊選擇了第二個方案。

 

“我們最關注的是120秒挑戰。我們透過資料分析以及心理學研究,很清楚使用者看到一個形象時,前120秒至關重要,如果使用者在120秒內發覺這是一個特別假的形象、或者對這個形象產生厭惡,往往會不再消費。這也是常說的恐怖谷效應,我們想測試的關鍵點是:120秒內,使用者是否會出現恐怖谷效應。”京東雲言犀負責人向虎嗅表示。

 

從4月16日直播的資料看,京東雲言犀的120秒挑戰是過關的:在直播的第一小時內,總GMV達到5000萬元。“我們發現,很多使用者似乎沒有意識到這是數字人。”京東雲言犀負責人說。

 

目前處於第二階段

 

據京東雲言犀負責人透露,眼下言犀數字人發展到了第二階段。“第一階段,是向真人看齊,這類數字人可以在黃金時段之外直播帶貨,這些數字人可以對產品進行清晰的介紹;第二階段可以媲美真人,並承擔一些獨立任務,比如在黃金時段講解爆品;第三階段的數字人要融合真人的文化背景和思維邏輯,可以視為真人的數字分身。”

 

虎嗅獲悉,京東雲言犀數字人技術會根據不同的場景,採取複合技術方案,其中有兩個常見的技術路線:其一是完全端到端的生成,即在生成數字人過程中並不在任何環節進行顯示建模;另一種,則是上文提及的利用一張照片或者3~5分鐘影片素材,對人臉建3D Mesh模型,然後再去控制他的表情、唇型,然後再做紋理的渲染。這兩個方案其實團隊在不同場景裡都會去用。

 

最大的技術難點,是大姿態:即數字人擁有複雜的唇形、模擬動作、微表情。“如果想實現大姿態數字人,首先會遇到光線挑戰,視覺上很容易發現打光不均勻,會讓使用者覺得數字人身上一塊白一塊黑;以及會遇到唇形挑戰,這是核心難點,大姿態數字人並不會一直正對著鏡頭說話,你需要在各個角度實現擬真效果。”

 

“我們的核心技術思路是端到端:建模-驅動-渲染的一體化。和Sora的思路很像,但區別在於Sora一開始就聚焦於通用內容影片方案,而言犀大模型聚焦於人物影片生成。未來我們將可能參考部分Sora技術,按效果優先,逐步擴充套件覆蓋的領域。”京東雲言犀負責人說。

 

在這個路徑中,模型的推理最佳化以及計算效率是另一個關鍵點。京東雲言犀的大模型專案組裡,有一個單獨的戰鬥小組負責推理最佳化。相關人士告訴虎嗅,行業內常見的模型蒸餾和模型量化,一般是做bit4或者bit8,而京東採取了不同的策略,透過CPU,而非GPU進行推理,降低應用成本。

 

“原來在大模型裡每一個模型引數應該是浮點數,一般是用32或64位來表示浮點數的一個引數的,但應用時浮點數一方面佔的空間很大;二是運算比較慢,浮點運算相對比較慢,所以我們做量化就是用一個八倍的整數來近似模擬一個16位的浮點數。甚至我們可以做到用四位就可以來模擬一個引數。這樣一方面使得模型的大小會變小,同時使得整個運算速度會極大加快”上述人士表示。

 

有AIGC領域資深從業者告訴虎嗅,目前國內可以做雲端數字人服務的公司並不少,而在文字合成聲音等領域,大部分頭部網際網路公司的實力相近。“從技術和落地看,京東言犀數字人在推理最佳化是有優勢的,而其海量商品資料對於數字人產品是一個關鍵助力,它可以針對不同產品去更快速、高效地做最佳化。”

 

尚需解決的挑戰

 

互動能力進級以及挖掘更多商業化場景,是京東雲言犀數字人尚需解決的。

 

過去幾次直播,京東雲言犀團隊和京東採銷直播間一直深度協作:簡單來說,京東雲言犀團隊負責數字人技術、呈現,並根據每一次直播的效果去最佳化,比如第三次直播時劉強東數字人的互動效果比第一場直播明顯更好;而京東採銷直播間則負責選品、運營等一系列“業務側”工作,過去三場直播中京東採銷直播間在選品上以平臺爆品為主。

 

在互動方面,目前京東雲言犀數字人尚無法媲美真人互動。在過去的幾次直播中,除了透過文字彈幕使用者留言外,劉強東數字人有時會針對一些共性問題做回答。但相比於真人直播間常見的“插科打諢”、“玩梗互動”,目前的數字人尚顯“稚嫩”。“比如很難像董宇輝那樣,針對一個產品,溘然有了靈感,開始講文學、文化,目前還無法做到這一點,也就是很難讓數字人有真正的思想與意識。”

 

另一個挑戰是場景。

 

據京東雲言犀團隊人士透露,他們目前在直播之外,在短影片等領域也服務了一些B端客戶,比如在一些地產公司裡,會透過數字人自動生成講房影片。不外相比於想象中能夠落地的場景,目前真實服務的場景相對有限。

 

618或成為京東雲言犀數字人的“期中考試”,據悉京東內部已經對數字人在618期間的表現以厚望,而AI也被京東CEO許冉視為2024年618的關鍵點。言犀數字人能否成為京東的關鍵引擎?一個多月後即將揭曉。

上一篇:支付寶方面就... 下一篇:“後廣告”時代...
猜你喜歡
熱門閱讀
同類推薦