image.png

頭條

Google I/O

https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/
谷歌在 2024 年 I/O 大會上發(fā)布了許多新功能，包括 Gemini Flash、Veo 視頻生成、Imagen 3 以及最新的助手 Project Astra。總之，谷歌的改進令人印象深刻，包括 2 米令牌上下文長度、大幅便宜的機型和改進的多模態(tài)功能。

Anthropic Is Expanding To Europe And Raising More Money

https://techcrunch.com/2024/05/13/anthropic-is-expanding-to-europe-and-raising-more-money/
Anthropic 已將其人工智能助手 Claude 擴展到歐洲。克勞德支持多種語言。Anthropic 正在其網(wǎng)站、iOS 應用程序和面向團隊的商業(yè)計劃中提供這項服務。公司正在開始籌集更多資金。

研究

Mamba 對視覺任務的適用性

https://arxiv.org/abs/2405.07992v1
研究人員對通常用于具有長序列和自回歸特征任務的 Mamba 架構及其在視覺任務中的應用進行了研究，發(fā)現(xiàn)雖然 Mamba 在圖像分類方面效果不佳，但在檢測和分割任務中卻大有可為。

A New State-Free Sequence Parallel Inference

https://arxiv.org/abs/2405.06147v1
為深度學習開發(fā)了一種使用雙轉移函數(shù)表示法的新狀態(tài)空間模型。它采用無狀態(tài)序列并行推理算法。

工程

Ollama on Google Firebase

https://firebase.google.com/docs/genkit/plugins/ollama
Genkit 是 Firebase 用于構建和部署生成式產品的新工具集。它可用于啟動開源語言模型的服務器。

Image Deraining

https://github.com/mingtian99/esdnet
ESDNet 是一種尖峰神經網(wǎng)絡 (SNN)，專為圖像推導任務而設計。它利用雨點像素值的獨特屬性來增強尖峰信號強度。

雜七雜八

OpenAI 做了什么

https://www.oneusefulthing.org/p/what-openai-did
GPT-4o 的多模態(tài)能力整合了視覺和語音，有望在人工智能與世界的交互方式上取得重大進展，為人工智能在日常生活中更加普及鋪平道路。

Fine-Tune PaliGemma

https://colab.research.google.com/github/google-research/big_vision/blob/main/big_vision/configs/proj/paligemma/finetune_paligemma.ipynb
谷歌在今天的發(fā)布會上發(fā)布并預告了幾個開源模型。其中一個實際發(fā)布的模型是基于 SigLIP 的視覺語言模型。它非常容易調整和擴展到各種任務中。這本 Colab Notebook 展示了如何通過簡潔、可讀性強的代碼實現(xiàn)這一點。

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

2024-05-16 簡訊 : Google I/O