頭條
"蘋果智能" 的功能列表
蘋果公司發布了 "Apple Intelligence "人工智能套件,該套件具有會話式 Siri、人工智能生成的 "Genmoji "和用于復雜請求的 GPT-4o 集成等功能。這些功能將為新款 iPhone、iPad 和 Mac 所獨有。它們將在今年秋季的 iOS 18、iPadOS 18 和 macOS Sequoia 中以英文推出。蘋果公司通過設備上處理和 "私有云計算"(Private Cloud Compute)處理設備外任務來強調隱私,并允許獨立的隱私驗證。
研究
Proofread: 一鍵改正所有錯誤
https://arxiv.org/abs/2406.04523
Gboard 團隊概述了他們如何在 PaLM2-XS 模型上使用 SFT 來修復設備上書面文本中的句子和段落級錯誤。他們發現延遲優化帶來了巨大的改進和使用率的提高。
BitsFusion: 1.99 位權重量化擴散模型
https://snap-research.github.io/BitsFusion/
Snap Research 團隊采用新的量化方案,將穩定擴散 UNet 模型的大小從 1.72 GB 減少到 219MB,同時提高了性能。量化方法有些復雜,但為在消費類硬件上運行生成模型描繪了一條強勁的前進道路。
Apple 的基礎模型介紹
https://machinelearning.apple.com/research/introducing-apple-foundation-models
蘋果公司在 WWDC 2024 上推出了 "蘋果智能"(Apple Intelligence)。Apple Intelligence 是一個集成在 iOS 18、iPadOS 18 和 macOS Sequoia 中的人工智能系統,具有先進的生成模型,可用于文本提煉、通知匯總和圖像創建等各種日常任務。該系統強調負責任的人工智能開發和用戶隱私,結合了設備上和云端功能,以增強蘋果產品的用戶體驗。
工程
Thread
https://github.com/squaredtechnologies/thread
Jupyter 筆記本將 OpenAI 代碼解釋器的體驗與 Python 筆記本熟悉的開發環境相結合。
Better Open-Vocabulary Recognition
https://arxiv.org/abs/2406.04675v1
OVMR 是一種新方法,它通過結合文本描述和示例圖像來增強開放詞匯識別能力。
增強多模式培訓的穩定性
https://arxiv.org/abs/2406.04802v1
預測性動態融合(PDF)框架通過解決可靠性和穩定性問題來增強多模態學習。
雜七雜八
人工智能圖像模型如何工作
https://every.to/p/how-ai-image-models-work
自 2022 年以來,人工智能圖像生成技術已經從基于文字描述創建圖像發展到現在。本文以兒童游戲為類比,解釋了這些模型如何改進噪聲輸入,生成詳細而具體的圖像,展示了人工智能在視覺創意方面的快速進步和潛力。
Enhancing Depth Sensing
研究人員推出了一種新的框架,將主動立體原理集成到標準無源相機中,而無需使用物理圖案投影儀。
Asana稱其新 AI隊友已準備好管理你的項目
https://www.fastcompany.com/91134681/asana-ai-teammates-dustin-moskovitz-interview
Asana 推出了 "人工智能隊友",用于主動處理分流請求和整理項目細節等任務,旨在提高效率和產出質量。這項在 Asana 工作創新峰會上展示的新功能被集成到工作流程中,像人類團隊成員一樣行動,但仍處于人類監督之下。
glm 4 9b
https://huggingface.co/THUDM/glm-4-9b-chat
來自清華 KEM 小組的優秀模型,經過 10T 詞庫訓練,支持 26 種語言。
高質量 3D 生成
DIRECT-3D 是一種全新的基于擴散的三維生成模型,可根據文字提示創建高質量的三維資產。
ChainGPT
人們在所有加密貨幣和區塊鏈相關主題方面的個人人工智能專家。