1. 2023 年 市場陸續推出多模態的能力,LLM 往 LMM (Large Multimodal Models) 發展,2024年 AI 尤其在聽與說的能力整合以及在與硬體上的整合
  2. 預期 2024 小語言模型 Small Language Models (SLMs),也就是特定領域)的專門任務小模型發展,優點是成本低,專注在小型應用場景

Ameca vision and voice cloning 機器人

  1. 2024-02-26 釋出 Ameca DEMO 影片

  2. Engineered Arts開發,介面通過麥克風語音與鏡頭互動

  3. 擁有視覺能力可看到室內空間以及描述眼前的物體

  4. 擁有聲音模仿能力,可以複製風格及語調,例如摩根費里曼、馬斯克、海綿寶寶、川普(性格)

  5. 可以用某個性格及表情跟操作者對話

  6. 競爭對手是 OpenAI 的機器人 NEO


Google Gemma

  1. 2024-02-21 釋出: Open Source + LLM 發布
  2. 採跟Android一樣的開源戰略,方向用生態系力抗 OpenAI 的閉源
  3. 二個版本 : Gemma 2B 及 7B
  4. 允許開發人員和企業以自有資料微調Gemma
  5. 支援 Colab 和 Kaggle Notebooks,以及 JAX、PyTorch、Keras 3.0 和 Hugging Face Transformers 框架

OpenAI SORA

  1. 依據文字敘述,在幾秒內產出高品質影片,一個真實世界的模擬器,能依照使用者的指令創造出逼真且遵守物理定律的場景

  2. SORA 發布後,Worldcoin 加密貨幣意外暴漲,雖然世界幣及Sora兩個專案彼此完全無關,唯一關聯就是 Sam Altman 是Worldcoin主要發起者

  3. 2024-02-23 Stability.AI 發布的Stable Diffusion 3 與 SORA 採用相同架構 diffusion transformer,一樣強大的影像生成

一群狂奔的長毛象


AI 軟硬整合 - Galaxy S24 AI手機

  1. 13 種語言的雙向即時語音和文字翻譯、訊息即時翻譯智慧助和翻譯助理
  2. Circle to Search : 出現在手機螢幕上的圖片、影片和文字,能幫你找到相關資訊
  3. 寫作助理 : 依據對話情境提供回覆建議
  4. 預告要將 Galaxy AI 延伸到 Galaxy 穿戴裝置

AI 軟硬整合 - Rabbit R1

  1. AI 口袋型助理,產品定價 199 美元,不需要訂閱月費

  2. 輕巧 , 8吋的螢幕,跟 AI PIN 一樣採用語音控制完成功能,盡可能做到"沒有 UI 不跟 APP互動",直觀的語音操作方式讓 AI 自動完成任務,可插 SIM 卡上網 (4G LTE)

  3. 使用 AI LAM ( Large Action Model ) + Rabbit OS + Rabbit Eye (鏡頭) + 麥克風

  4. Push-to-Talk 按鈕,像使用對講機一樣對著 Rabbit R1 說話,即時翻譯

  5. 關鍵指標在於自動判斷的速度:強調反應速度快於 ChatGPT ,這裡的對比是相對把 “用語音操作裝有ChatGPT APP 的手機”

  6. 可以用 R1 鏡頭對著螢幕上 Excel ( Demo 有採用 OCR 辨識表格 !?),操作修改 Excel,最後透過 eMail 收送修改過的檔案

  7. 可以用 Teach Mode 教導R1使用使用某個軟體 ,軟體包含 WebApp 與 Desktop App,例如叫他去 Discord 做事,自動叫 UBER


AI 軟硬整合 - AI PIN

  1. 新創公司 Humane 推出,號稱微型AI智慧手機,產品定價 699 美元,需訂閱制服務(月份),2024年3月起出貨

  2. 未如原定時程出貨,順延至2024/4 月中旬才出貨 (2024/02/26更新)

  3. Snapdragon CPU、RGB 相機、深度感測器、運動感測器以及個人化揚聲器

  4. 每月 24 美元的 T-Mobile 專用門號服務,包含無限通話、簡訊與資料傳輸及雲端儲存及AI存取

  5. 4.7公分x4.4 公分 ,34公克,無螢幕,內建 Cosmos OS 透過手勢或語音操作,別在胸前或可放在口袋,1,300萬像素相機及投影機,微投影將軟體選單或介面,投射到用戶手掌上

  6. 搭配鏡頭導入GPT-4,為用戶實現即時翻譯,把資訊「投影」在手掌上互動,採用語音控制完成功能

  7. 上網支援包括 eSim、Wi-Fi、藍牙、Beacon、GPS,AI pin推出專屬的行動數據網路


AI 軟硬整合 - META Ray-Ban Meta Smart Glasses

  1. 雷朋跟臉書合作開發,產品定價 299 美元

  2. 搭配鏡頭,採用語音控制完成功能

  3. 全球首款具備 Facebook 與 Instagram 串流直播的智能眼鏡

  4. 有 5 顆麥克風以錄製音訊,12MP 超廣角鏡頭,可以錄製 60 秒的 1080p 影片