李未可科技古鑑：釋出自研多模態大模型WAKE-AI

來源：電影胡侃釋出時間：2024-05-06 04:33

作者 | GenAICon 2024

2024中國生成式AI大會於4月18-19日在北京舉行，在大會第一天的主會場大模型專場，李未可科技合夥人兼AI負責人古鑑以《WAKE-AI打造室外AI硬體互動新路徑》為題發表演講。

李未可科技一直在摸索AI適合什麼樣的室外場景。古鑑分享說，相比手機和新型硬體，智慧眼鏡是更適合AI的載體，它能帶來極致的輕薄，更適合室外場景的AI落地。大模型至少會為XR及AI眼鏡等帶來三方面的提升，包括互動更自然、陪伴更人性化、服務更精準。

古鑑在會上正式宣佈，李未可科技釋出針對“AI+終端”定向最佳化研發的多模態AI大模型平臺WAKE-AI。WAKE-AI具備文字生成、語言理解、影象識別及影片生成等多模態互動能力，針對眼鏡端使用者的使用方式、場景等進行了最佳化。

古鑑認為在語音層面上，大模型整體反饋速度技能指令小於500毫秒，大模型層面小於2秒，這樣使用者才會覺得這個反饋是足夠快的，而且它的反饋足夠及時，才能夠為使用者提供戶外運動、文化旅行、日程管理及實時翻譯等多種多模態AI服務。古鑑還透露道，李未可科技的WAKE-AI就是以此為最佳化方向，並即將推出搭載WAKE-AI的終端新品。

以下為古鑑的演講實錄：

我今天主要跟大家分享《WAKE-AI打造室外AI硬體互動新路徑》。李未可公司是2021年成立的，我們主要專注於以AR等眼鏡形態的硬體為基礎的AI研究以及產品，我本身也從事AI演算法和AR演算法大概超過十年。

一、智慧眼鏡是室外AI最適合的載體：輕薄、極致、續航長

首先跟大家分享一下，隨著AI的爆發和發展，大家都在尋找AI的落地場景，什麼樣的落地場景最適合AI？比如有AI+Car、AI+PC，但是在室外什麼樣的場景最合適？我們一直在摸索。

AI在室外首先要輕、薄，要能隨時互動，要利便，要看得清楚，這些都是AI對硬體的要求。我們在這方面做了很多調研，發現可能有三種方式在室外可以用作AI的主要互動方式。

第一種，手機。手機的接收方式是大家普遍可以接受的，每個人都有。但是它在某種程度上不是為AI設計的，所以在外面需要開啟手機，需要拍照，需要開啟語音助手跟它聊天，這不是一種很利便的互動方式。

第二種，最近比如Ai Pin，針對AI設計的硬體研發出來，我們發現這種硬體在使用者接受程度上有一定挑戰。畢竟是一個價格不菲新增的品類，目前從海外第一批使用者的體驗反饋來看，Ai Pin也是偏過渡的形式。

聚焦在硬體產品以後，我們發現以眼鏡為基礎的形態，其實既能被使用者接受，又有廣泛的使用場景。將眼鏡戴在臉上，使用者跟它溝通交流很利便。而且從傳統的眼鏡到智慧眼鏡，到AI眼鏡，就是一個逐漸過渡的過程。

我們認為，智慧眼鏡是AI最適合的載體，尤其室外。我們做了很長時間的眼鏡，從現在的趨勢來看，以眼鏡為基礎分兩條路線。

第一條路偏向室內場景，以辦公、遊戲等為主，要求陶醉的體驗、極致的MR（混合現實）感覺。比如蘋果Vision Pro很重，不適合帶到室外，但是它的體驗非常極致。

另一條路線偏向室外，比如本地生活、出行、旅遊，這類場景下（使用者）對AI眼鏡的要求主要是資訊的顯示，你能實時互動、導航，能夠聽一些講解，聽音樂，而且有些藍芽互動，這是我們定義資訊屏的顯示。AI的爆發，更加推動了這種形態眼鏡的生長。

我們定義為室外要極致的輕薄、極致的AI，而且續航時間要足夠長。室內要極致的陶醉，極致的AR、MR的感覺。

我們在去年釋出了一款眼鏡Meta Lens S3，這是一款針對室外場景釋出的一款嘗試性AR眼鏡，具有語音互動功能，包括室外拍照功能、室外錄影、藍芽語音接電話、使用光波導雙目顯示等。這款眼鏡已經售賣給消費者，取得了非常好的評價。

疫情結束以後，旅遊場景有一個很大的爆發，很多年輕人喜歡出遊，Citywalk（城市漫步）成為新的生活方式。我們有硬體基礎，隨著AI能力的爆發增長，我們能把硬體體驗提升到非常好的程度；再加上我們的室外垂直場景，這對於我們來說，包括很多生態來說，都是非常好的機遇。

二、AI帶來智慧眼鏡三大提升：更自然的互動、更人性化的陪伴、更精準的服務

AI到底能給我們的硬體，包括我們的使用者互動體驗帶來哪些提升？

我認為有三個部分：第一，給我們帶來更自然的互動；第二，有更人性化的陪伴；第三，在精準度和資訊數量上能夠提供更好的服務。

我們透過三種方式，能夠不斷地提升AI效果。

第一，我們使用定向最佳化的分發大模型，幫助快速地分發使用者的指令，比如我要聽歌，我要跟語音助手聊一聊。

第二，情感大模型，在人和冰冷的機器之間，我們需要有一份情感，有這份信任以後，使用者才能夠深深地信任這個硬體，才能讓它去執行很多工，才能把郵件系統開放給助手，讓它理解郵件。

第三，針對室外場景需要大量的資料，包括使用多模態的VQA（視覺問答）模型，讓使用者可以指哪問哪，透過圖片的方式得到相對應的資訊，這也是我們重要的創新。

三、透過定向最佳化的分發大模型，滿足更自然的互動

要滿足更自然的互動，AI硬體首先需要什麼樣的特點？

首先，使用者在眼鏡上對回答的容忍度比在手機上容忍度低。我測試了很多語音大模型在手機上的反饋，包括豆包、海螺問問等，它的反饋時間都在5秒左右，我覺得這個反饋時間其實在眼鏡上面無法接受。

我們認為在語音層面上，大模型整體反饋速度技能指令小於500毫秒，大模型層面小於3秒，這樣使用者才會覺得這個反饋是足夠快的，而且它的反饋足夠及時，才能解決使用者的問題。

第二，室外場景的噪音比較多。我們定位室外場景，噪音場景很多，包括多人對話、汽車、騎車的聲音。我們認為3A演算法，比如回聲消除、主動降噪、自動增益、通話降噪可能都是AI硬體需要滿足的。在-5db情況下語音準確度大於90%，才能滿足AI互動的基本需求，-10db的情況下（語音準確度要）大於85%。

另外，收音和ASR（自動語音識別）的效果需要保證。很多語音類的對話機器人其實ASR的效果都不是特別好，但是大模型的效果很好，把很多問題糾正了。

我認為ASR涉及很多的指令，ASR的字錯率要低於2%，字準率大於98%，這些標準跟在VR行業內整體渲染速度要在20毫秒以內的標準類似。我認為這是一個室外AI硬體的基礎標準。

在大模型還沒有爆發之前，我們使用傳統的演算法時會面臨很多解決不了的問題。

比如表達“我吃飯了，我要運動”，使用者會加入很多自己的語言，但是他的意圖可能是最後我要運動，怎麼把這些泛化的問題解決，這些是難點之一；第二，“幫我開啟導航，我要運動”，使用者是想要導航仍是想要運動，這本身就是涉及多意圖的理解；第三，實現Agent（智慧體）的能力，怎麼呼叫App、呼叫Agent解決使用者對應的意圖；第四，多輪聊天的能力，上下文的指代消解，傳統方法做得非常不好；另外，知識儲備的有限，一些無法回答等。

這些都是大模型的優勢。我們希望使用大模型的快速分發能力，包括使用輕量級模型，快速給使用者一個反饋，能夠達到很好的分發使用者意圖的效果。另外，大模型能支援AI Agent的能力，快速執行使用者的買票、導航等意圖。我們希望基於大模型回答使用者高質量的問題，包括使用RAG（檢索增強生成）進行搜尋、判斷等，這些都是分發大模型需要具備的。

基於AI眼鏡的設計思路，其中包含了Memory模組、分發大模型模組。分發大模型主要透過語音輸入來快速分發，比如聊天、資訊搜尋或指令，比如“我要聽歌”或者“聲音大一點”，透過這些分配來反饋到情感大模型的結果裡。待會兒我會提到情感大模型和我們的Memory模組。在情感大模型裡，我們會融入角色的設定，讓使用者的反饋會更加地擬真。

另外，我們有一個單獨的Agent模組執行使用者的指令，比如導航、買票、備忘錄，這些可能都是使用者的剛需。這是整體設計的框架，慢慢地，我們要轉入如何讓使用者和機器建立情感的連線。

四、透過情感大模型及長記憶，提供更好的陪伴

我很喜歡的一部電影《她》（Her）。當這個人啟動OS1系統的時候，他的第一感覺是，為什麼這個跟人一樣的聲音是從機器裡發出來的？這種情感連線在第一時間就快速地建立起來。我認為AI硬體尤其要跟人產生聯絡關係的時候，首先要考慮到的就是情感連線，比如它必須得像人，它能夠知道喜好，能跟使用者有深度的聊天。

我在很多對話機器人上聊差不多10輪到15輪以後，聊得非常尷尬，很多問題會聊不下去。如何進行有深度的聊天？包括角色的概念和不同Agent解決對應的問題，其中很重要的對《她》這部片子的感覺，AI助手一直在幫男人解決交流的問題，一直在幫他想各種各樣的辦法。這其實就是最後AI要幫助人互動、要解決的問題。

我們要有擬人化的DTS（數字化影院系統音訊技術），要有長記憶的系統，要預訓練一些知識，比如歷史的資訊、人物性格的定義，還有一些情感類Agent的呼叫，這些都是我們正在做和我們將要做的一些東西。

重點跟大家談一下長記憶的這套系統。我跟我們的對話機器人聊的一段，其中有兩塊比較值得關注，一是根據之前我跟它聊天它得到的資訊，它能知道我喜歡什麼樣的咖啡豆；二是它能夠把它的知識庫裡大量的小眾資料，融入到它的對話系統裡，給我一個驚豔的反饋。

這就是我們期望使用者能夠天天使用AI眼鏡的核心基礎，透過核心記憶和長期記憶，不斷更新使用者的畫像。

核心記憶主要用於不斷得到使用者的年齡、喜好等資訊。長期記憶是把使用者的很多資訊進行構建索引後，最終存到長期記憶庫裡面，在長期記憶庫裡不斷檢索，最終彙總到核心記憶，到補充記憶資訊的Prompt（提示詞）裡面。這樣在每次對話中，系統就可以理解使用者想要什麼，還有一些記住的事情，慢慢地情感就會建立起來。

五、Citywalk戶外多模態大模型，打造更精準的服務

第三部分，使用我們的眼鏡去做Citywalk，這是年輕人尤其喜歡的一個室外專案。很多年輕人戴著我們的眼鏡，尤其喜歡去拍第一視角影片，包括AI語音可以支援使用者詢問周邊的資訊。

我們跟杭州的學研機構聯合研發了一條路線，以孤山為基礎，在這條路線上，有很多小朋友戴著眼鏡沿著不同的景點，去詢問，學到很多知識。這條路線受到學研機構的大力推廣和很多小朋友的喜愛，現在依然在運營，有興趣體驗的人可以聯絡我們去孤山體驗。

我們的“旅遊助手+城市漫遊系統”，核心是資料內容，以景區作為核心供給，現在大概有2000多個景區資料。另外，我們從小紅書、去哪兒網獲取了小眾的特色地點和路線，還有當地人會去的一些美食餐廳，透過人工和半自動的方式來吸收這些資料，不斷收拾整頓，形成我們的路線、推薦、遊覽攻略。

最終給到使用者的核心體驗，一是景點遊覽，使用者在景區可以問比如“嶽王廟的歷史”等問題；還有自動巡航系統，使用到VQA系統，當用戶問“嶽王廟裡的碑寫的到底是什麼”，可以用手指點去詢問，這也用到了多模態+LBS的系統；三是地點彈幕，使用者根據LBS的地點資訊，可以留言、釋出一些相關到此一遊的相關資訊，你的朋友看到了可能會聯絡你。

多模態大模型可以做到“指哪兒問哪兒”，小朋友非常喜歡這樣的體驗。整體使用多模態+GPS跨模態向量的系統，最終使用了多模態大語言模型生成了相對應的內容。

之前我們也做過很多跟SLAM（同時定位與地圖構建）相關的技術，透過使用者第一視角的影片先用SLAM生成相對應的影片，再透過影片生成的方式，讓使用者覺得在騎行或者走路過程中整體第一視角的影片非常酷炫，這也是眼鏡裡提供的影片後處理中很有特色的功能。

再加上我們可以透過遊記的方式進行生成，當遊覽完整個路線以後，你可以自動生成路線，可以透過這個路線把影片、圖片、遊記快速分享出來，這是整個旅遊的一套行程系統。

六、釋出多模態大模型平臺WAKE-AI，共建室外AI+AR眼鏡生態

這是WAKE-AI整體大模型的框架，我們希望把這個框架分享給大家，跟大家一起來建設AR眼鏡+AI能力、在室外等多個場景的生態。

我們把WAKE-AI整套系統輸入到李未可App的開發平臺，使用者可使用自定義的編排邏輯，包括可以透過我們的平臺編輯你想在眼鏡上顯示什麼樣的位置等資訊，同時釋出到李未可的“AI Store”上，透過終端眼鏡顯示出來。

我們希望和大家一起去共建這個生態，也希望逐步開放出很多演算法能力，這樣才能夠一起把AI真正落地。李未可AI平臺也開放了特邀群，大家感興趣的話可以加入進來，我們一起探討，逐步釋放我們的能力。

同時，我們也在4月底正式釋出李未可AI眼鏡，很多功能可以在這款眼鏡上體現出來。售價定為699元，非常友好的價格，讓大家去體驗新一代的AI互動。

以上是古鑑演講內容的完整收拾整頓。

上一篇：珠海海洋科技... 下一篇：特步攜手華為...