- 2023 年 市場陸續推出多模態的能力,LLM 往 LMM (Large Multimodal Models) 發展,2024年 AI 尤其在聽與說的能力整合以及在與硬體上的整合
- 預期 2024 小語言模型 Small Language Models (SLMs),也就是特定領域)的專門任務小模型發展,優點是成本低,專注在小型應用場景
Ameca vision and voice cloning 機器人
-
2024-02-26 釋出 Ameca DEMO 影片
-
Engineered Arts開發,介面通過麥克風語音與鏡頭互動
-
擁有視覺能力可看到室內空間以及描述眼前的物體
-
擁有聲音模仿能力,可以複製風格及語調,例如摩根費里曼、馬斯克、海綿寶寶、川普(性格)
-
可以用某個性格及表情跟操作者對話
-
競爭對手是 OpenAI 的機器人 NEO
Google Gemma
- 2024-02-21 釋出: Open Source + LLM 發布
- 採跟Android一樣的開源戰略,方向用生態系力抗 OpenAI 的閉源
- 二個版本 : Gemma 2B 及 7B
- 允許開發人員和企業以自有資料微調Gemma
- 支援 Colab 和 Kaggle Notebooks,以及 JAX、PyTorch、Keras 3.0 和 Hugging Face Transformers 框架
OpenAI SORA
-
依據文字敘述,在幾秒內產出高品質影片,一個真實世界的模擬器,能依照使用者的指令創造出逼真且遵守物理定律的場景
-
SORA 發布後,Worldcoin 加密貨幣意外暴漲,雖然世界幣及Sora兩個專案彼此完全無關,唯一關聯就是 Sam Altman 是Worldcoin主要發起者
-
2024-02-23 Stability.AI 發布的Stable Diffusion 3 與 SORA 採用相同架構 diffusion transformer,一樣強大的影像生成
一群狂奔的長毛象
AI 軟硬整合 - Galaxy S24 AI手機
- 13 種語言的雙向即時語音和文字翻譯、訊息即時翻譯智慧助和翻譯助理
- Circle to Search : 出現在手機螢幕上的圖片、影片和文字,能幫你找到相關資訊
- 寫作助理 : 依據對話情境提供回覆建議
- 預告要將 Galaxy AI 延伸到 Galaxy 穿戴裝置
AI 軟硬整合 - Rabbit R1
-
AI 口袋型助理,產品定價 199 美元,不需要訂閱月費
-
輕巧 , 8吋的螢幕,跟 AI PIN 一樣採用語音控制完成功能,盡可能做到"沒有 UI 不跟 APP互動",直觀的語音操作方式讓 AI 自動完成任務,可插 SIM 卡上網 (4G LTE)
-
使用 AI LAM ( Large Action Model ) + Rabbit OS + Rabbit Eye (鏡頭) + 麥克風
-
Push-to-Talk 按鈕,像使用對講機一樣對著 Rabbit R1 說話,即時翻譯
-
關鍵指標在於自動判斷的速度:強調反應速度快於 ChatGPT ,這裡的對比是相對把 “用語音操作裝有ChatGPT APP 的手機”
-
可以用 R1 鏡頭對著螢幕上 Excel ( Demo 有採用 OCR 辨識表格 !?),操作修改 Excel,最後透過 eMail 收送修改過的檔案
-
可以用 Teach Mode 教導R1使用使用某個軟體 ,軟體包含 WebApp 與 Desktop App,例如叫他去 Discord 做事,自動叫 UBER
AI 軟硬整合 - AI PIN
-
新創公司 Humane 推出,號稱微型AI智慧手機,產品定價 699 美元,需訂閱制服務(月份),2024年3月起出貨
-
未如原定時程出貨,順延至2024/4 月中旬才出貨 (2024/02/26更新)
-
Snapdragon CPU、RGB 相機、深度感測器、運動感測器以及個人化揚聲器
-
每月 24 美元的 T-Mobile 專用門號服務,包含無限通話、簡訊與資料傳輸及雲端儲存及AI存取
-
4.7公分x4.4 公分 ,34公克,無螢幕,內建 Cosmos OS 透過手勢或語音操作,別在胸前或可放在口袋,1,300萬像素相機及投影機,微投影將軟體選單或介面,投射到用戶手掌上
-
搭配鏡頭導入GPT-4,為用戶實現即時翻譯,把資訊「投影」在手掌上互動,採用語音控制完成功能
-
上網支援包括 eSim、Wi-Fi、藍牙、Beacon、GPS,AI pin推出專屬的行動數據網路
AI 軟硬整合 - META Ray-Ban Meta Smart Glasses
-
雷朋跟臉書合作開發,產品定價 299 美元
-
搭配鏡頭,採用語音控制完成功能
-
全球首款具備 Facebook 與 Instagram 串流直播的智能眼鏡
-
有 5 顆麥克風以錄製音訊,12MP 超廣角鏡頭,可以錄製 60 秒的 1080p 影片