頭條
Gemini 智能即將上線 Nest 攝像頭、智能音箱和智能顯示器
https://www.theverge.com/2024/8/6/24213639/google-gemini-intelligence-ai-google-home-nest-aware
Google 宣布為 Google Home 推出 Gemini AI 驅動的新功能,包括 Nest 攝像頭鏡頭的智能字幕、用于創建家庭日常活動的自然語言處理,以及升級版、聽起來更自然的 Google Assistant。這些高級功能主要隱藏在 Nest Aware 訂閱付費墻后面,旨在增強智能家居體驗,推出的 Beta 版將于明年開始,并將進一步擴展。作為邁向更智能家居自動化的一部分,Google 設想了一個可以主動管理復雜和動態家庭環境的助手。
隨著監管的升級,Nvidia 忙于做出回應
https://www.nytimes.com/2024/08/06/technology/nvidia-antitrust-scrutiny.html
Nvidia 因其在 AI 芯片和銷售實踐中占據主導地位而面臨歐盟、英國、中國和美國司法部的政府越來越嚴格的審查。該公司在盈利增長的同時,正在迅速組建法律和政策團隊,以解決反壟斷問題,因為它占據了 AI 系統必不可少的 GPU 市場的 90%。Nvidia 也在適應日益嚴格的競爭監督,最近人們的注意力轉向了其計劃收購 Run.ai 及其對 AI 供應鏈的影響。
扎克伯格表示,Meta 訓練 Llama 4 所需的計算能力將比 Llama 3 多 10 倍
Meta 計劃大幅提高訓練其下一代大型語言模型 Llama 4 的計算能力,預計計算能力將比 Llama 3 增加 10 倍。對人工智能訓練基礎設施的投資將在 2025 年推高資本支出。盡管投入巨額資金,但 Meta 并不認為 Gen AI 產品會立即帶來可觀的收入。
研究
優化測試時間計算的擴展可能比擴展模型參數更有效
https://arxiv.org/abs/2408.03314
在推理時使用計算來提高模型性能的壓力很大。本文展示了幾種可以使用的方法,并討論了它們之間的權衡。總的來說,這表明了一種更廣泛的趨勢,即從較小的模型中榨取性能。
LLaVA-OneVision:輕松的視覺任務轉移
https://arxiv.org/abs/2408.03326
視覺語言模型一直在努力使其易于調整和在任務之間轉移。這讓人想起了十年前的計算機視覺。重要的是,這可以通過仔細的數據管理和架構更新來實現,這些都在 LLaVA-OneVision 中得到展示。
一個物體值 64x64 像素:通過圖像擴散生成 3D 物體
將 3D 物體視為 UV 包裹圖像,可以輕松使用 DiT 模型根據文本輸入合成新物體。
工程
ABC 不變性
https://gist.github.com/cloneofsimo/c799c863154d5da4cae65e83491d918d
muP 是一種調整超參數以從較小模型轉移到較大模型的方法。這個 GitHub 要點在實踐中展示了一個很棒的定理,它指出你可以更改模型輸出的縮放位置,而不會影響最終的傳輸性能。
Flux Canny 控制網
https://huggingface.co/XLabs-AI/flux-controlnet-canny
XLabs 發布了第一個 Flux-Dev 控制網,允許根據 Canny 圖像輸入進行生成。
創建隱私保護的表格數據
https://arxiv.org/abs/2408.02927
HARMONIC 是一個使用大型語言模型生成和評估合成表格數據的框架。
雜七雜八
GitHub 如何利用 AI 將客戶反饋轉化為行動
GitHub 正在利用 AI 和機器學習來大規模分析和總結客戶反饋,通過可操作的見解為產品改進和功能優先級排序提供信息。這種自動化方法可以捕獲多語言反饋并推動數據驅動的決策,從而增強對開發人員需求的響應能力。該計劃凸顯了 GitHub 致力于整合 AI 以維持以開發人員為中心的產品開發流程。
OpenAI 如何生存?
https://www.wheresyoured.at/to-serve-altman/
考慮到生成式 AI 缺乏廣泛的市場效用以及開發和運行大型語言模型的成本高昂,本文對 OpenAI 的可持續性提出了深深的懷疑。作者質疑 OpenAI 在沒有重大技術突破或持續、前所未有的籌款努力的情況下能否長期生存。盡管 OpenAI 對 AI 行業具有影響力,但該公司仍面臨著盈利能力、高運營成本以及對戰略合作伙伴關系(尤其是與微軟的合作伙伴關系)的依賴等挑戰。
AMD 正在成為一家 AI 芯片公司,就像 Nvidia 一樣
https://www.theverge.com/2024/7/30/24209938/amd-q2-2024-earnings-datacenter-ai-revenue
AMD 2024 年第二季度的收益顯示,其業務向數據中心產品發生了重大轉變,目前近一半的銷售額來自該領域,這主要歸功于 Instinct MI300 AI 芯片。該公司致力于每年發布新的 AI 芯片,與 Nvidia 的產品競爭,盡管供應限制預計將持續到 2025 年。盡管 Nvidia 在數據中心市場仍保持領先地位,但 AMD 的 CPU 和 GPU 細分市場(包括 Ryzen 處理器和 Radeon 6000 GPU)均實現了增長。
微軟在 AI 上損失慘重
https://futurism.com/the-byte/microsoft-losing-money-ai
微軟的 AI 投資上個季度飆升至 190 億美元,專注于數據中心的 AI 功能,但 AI 收入是否可觀仍不確定。
Taco Bell 的免下車 AI 可能會接你的下一份訂單
https://www.theverge.com/2024/7/31/24210506/taco-bell-drive-thru-ai-order-expansion
Yum! Brands 正在將其 AI 驅動的語音 AI 技術擴展到數百家 Taco Bell 免下車餐廳,以提高效率,目標是在年底前更廣泛地推廣。
OpenAI 投資一家網絡攝像頭公司轉型為 AI 初創公司
https://www.theverge.com/2024/8/7/24215370/openai-invests-in-a-webcam-company-turned-ai-startup
OpenAI 正在牽頭為 Opal 進行 6000 萬美元的融資,Opal 是高端 Tadpole 網絡攝像頭背后的公司。