頭條
Google I/O
https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/
谷歌在 2024 年 I/O 大會上發(fā)布了許多新功能,包括 Gemini Flash、Veo 視頻生成、Imagen 3 以及最新的助手 Project Astra。總之,谷歌的改進令人印象深刻,包括 2 米令牌上下文長度、大幅便宜的機型和改進的多模態(tài)功能。
Anthropic Is Expanding To Europe And Raising More Money
https://techcrunch.com/2024/05/13/anthropic-is-expanding-to-europe-and-raising-more-money/
Anthropic 已將其人工智能助手 Claude 擴展到歐洲。克勞德支持多種語言。Anthropic 正在其網(wǎng)站、iOS 應用程序和面向團隊的商業(yè)計劃中提供這項服務。公司正在開始籌集更多資金。
研究
Mamba 對視覺任務的適用性
https://arxiv.org/abs/2405.07992v1
研究人員對通常用于具有長序列和自回歸特征任務的 Mamba 架構及其在視覺任務中的應用進行了研究,發(fā)現(xiàn)雖然 Mamba 在圖像分類方面效果不佳,但在檢測和分割任務中卻大有可為。
A New State-Free Sequence Parallel Inference
https://arxiv.org/abs/2405.06147v1
為深度學習開發(fā)了一種使用雙轉移函數(shù)表示法的新狀態(tài)空間模型。它采用無狀態(tài)序列并行推理算法。
工程
Ollama on Google Firebase
https://firebase.google.com/docs/genkit/plugins/ollama
Genkit 是 Firebase 用于構建和部署生成式產品的新工具集。它可用于啟動開源語言模型的服務器。
Image Deraining
https://github.com/mingtian99/esdnet
ESDNet 是一種尖峰神經網(wǎng)絡 (SNN),專為圖像推導任務而設計。它利用雨點像素值的獨特屬性來增強尖峰信號強度。
雜七雜八
OpenAI 做了什么
https://www.oneusefulthing.org/p/what-openai-did
GPT-4o 的多模態(tài)能力整合了視覺和語音,有望在人工智能與世界的交互方式上取得重大進展,為人工智能在日常生活中更加普及鋪平道路。
Fine-Tune PaliGemma
https://colab.research.google.com/github/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/finetune_paligemma.ipynb
谷歌在今天的發(fā)布會上發(fā)布并預告了幾個開源模型。其中一個實際發(fā)布的模型是基于 SigLIP 的視覺語言模型。它非常容易調整和擴展到各種任務中。這本 Colab Notebook 展示了如何通過簡潔、可讀性強的代碼實現(xiàn)這一點。
xAI 接近 100 億美元租用甲骨文服務器
https://www.reuters.com/technology/elon-musks-xai-nears-10-bln-deal-rent-oracles-ai-servers-information-reports-2024-05-14/
埃隆-馬斯克(Elon Musk)的人工智能初創(chuàng)公司xAI正在洽談一項可能價值100億美元的交易,向甲骨文租用云服務器,旨在成為甲骨文最大的客戶之一,并與OpenAI和谷歌的人工智能產品相抗衡。
Gemini Flash
https://deepmind.google/technologies/gemini/flash/
Gemini Flash 是谷歌推出的一種新型輕量級模型,具有多模態(tài)推理功能和長達一百萬個代幣的長上下文窗口。
Veo
https://deepmind.google/technologies/veo/
Veo 是谷歌 Deepmind 推出的全新視頻生成人工智能模型,可生成 1080p 分辨率的視頻,時長可達一分鐘以上。