頭條
谷歌向 Gemini Advanced 推出 Gems 和 Imagen 3
https://9to5google.com/2024/08/28/gemini-advanced-gems-imagen-3/
谷歌正在向 Gemini Advanced 訂閱用戶推出其新功能 Gems 和 Imagen 3。 Gems 允許用戶創(chuàng)建針對(duì)特定任務(wù)的 Gemini 自定義版本,提供學(xué)習(xí)教練和編碼合作伙伴等預(yù)制選項(xiàng),而 Imagen 3 是 Google 最新的圖像生成模型,現(xiàn)在可用于生成詳細(xì)且藝術(shù)的圖像。
Midjourney 表示正在“進(jìn)軍硬件領(lǐng)域”
https://techcrunch.com/2024/08/28/midjourney-says-its-getting-into-hardware/
Midjourney 正在向硬件領(lǐng)域擴(kuò)張,并在舊金山組建了一支新團(tuán)隊(duì)。這一舉措從聘請(qǐng)前 Neuralink 和 Apple Vision Pro 工程師 Ahmad Abbas 就可以看出,硬件可能與其正在開發(fā)的視頻和 3D 生成 AI 模型有關(guān)。
OpenAI 正在洽談融資,估值超過 1000 億美元
OpenAI 正在洽談在由 Thrive Capital 牽頭的新一輪融資中籌集數(shù)十億美元,這將使該公司的估值超過 1000 億美元,微軟也有望參與其中。
研究
生成驗(yàn)證器:獎(jiǎng)勵(lì)建模作為下一個(gè)標(biāo)記預(yù)測(cè)
https://arxiv.org/abs/2408.15240
獎(jiǎng)勵(lì)模型通常被訓(xùn)練為判別分類器。DeepMind 的這項(xiàng)工作使用語(yǔ)言模型的“是/否”邏輯作為獎(jiǎng)勵(lì)信號(hào)。它發(fā)現(xiàn),通過允許模型使用 CoT 和集成,研究人員將性能提高了 16%。
多語(yǔ)言套利
https://arxiv.org/abs/2408.14960
Cohere 的 Aya 模型能夠通過利用 oracle 模型性能和路由合成數(shù)據(jù)生成之間的差異,顯著提高其相對(duì)于基線模型的勝率。
Text2SQL is Not Enough: Unifying AI and Databases with TAG
https://arxiv.org/abs/2408.14717v1
表增強(qiáng)生成是一種新范式,它將語(yǔ)言模型與數(shù)據(jù)庫(kù)相結(jié)合,以回答復(fù)雜的自然語(yǔ)言問題。
工程
使用擴(kuò)散模型快速高質(zhì)量生成 3D 形狀
https://github.com/octree-nn/octfusion
OctFusion 是一種使用擴(kuò)散模型生成 3D 形狀的方法,可實(shí)現(xiàn)高效和高質(zhì)量。它可以在單個(gè) Nvidia 4090 GPU 上僅用 2.5 秒生成任意分辨率的 3D 形狀。
將 Transformer 提煉為高效的線性 RNN
https://github.com/jxiw/mambainllama
研究人員已經(jīng)證明,大型 Transformer 模型可以提煉為更易于部署的線性 RNN,并重復(fù)使用注意層的權(quán)重。
事件引導(dǎo)視頻去模糊
https://arxiv.org/abs/2408.14930v1
研究人員開發(fā)了一種新的視頻去模糊方法,通過集成事件相機(jī)(以微秒時(shí)間分辨率捕捉運(yùn)動(dòng))來增強(qiáng)運(yùn)動(dòng)模糊視頻的清晰度。
雜七雜八
設(shè)備上的實(shí)時(shí) AI
https://cartesia.ai/blog/2024-08-27-on-device
Cartesian 宣布了多項(xiàng)模型和系統(tǒng)改進(jìn)。它還發(fā)布了一個(gè)開放的混合狀態(tài)空間模型。
Stephen Wolfram 認(rèn)為我們需要哲學(xué)家研究 AI 周圍的大問題
Stephen Wolfram 強(qiáng)調(diào)將哲學(xué)嚴(yán)謹(jǐn)性納入 AI 研究、解決核心倫理問題的重要性。隨著 AI 影響力的不斷增長(zhǎng),這些傳統(tǒng)上屬于哲學(xué)的問題變得越來越重要。Wolfram 提倡在 AI 發(fā)展中進(jìn)行更深入、更經(jīng)典的哲學(xué)思考,以更好地理解其對(duì)人類的影響。
今年歐洲最熱門的 AI 交易
https://techcrunch.com/2024/08/24/the-top-ai-deals-in-europe-this-year/
盡管初創(chuàng)企業(yè)普遍面臨逆風(fēng),但 AI 企業(yè)仍繼續(xù)獲得大量資金。2024 年,美國(guó) AI 初創(chuàng)企業(yè)已達(dá)成近 30 筆超過 1 億美元的交易,歐洲緊隨其后。主要投資包括 WAYVE (10 億美元)、Mistral AI (~10 億美元)、Helsing (4.84 億美元)、Poolside (4 億美元)、DeepL (3.2 億美元)、H (2.2 億美元) 和 Flo Health (2 億美元)。
Joy Caption
https://huggingface.co/spaces/fancyfeast/joy-caption-pre-alpha
專為圖像字幕設(shè)計(jì)的一個(gè)開源 VLM。
介紹 RPBench-Auto
https://boson.ai/rpbench-blog/
Boson AI 推出了 RPBench-Auto,這是一個(gè)自動(dòng)化評(píng)估流程,用于對(duì)受 ArenaHard 和 Alpaca Eval 啟發(fā)的 LLM 角色扮演能力進(jìn)行基準(zhǔn)測(cè)試。
輕量級(jí)冠軍:NVIDIA 發(fā)布具有最先進(jìn)準(zhǔn)確度的小型語(yǔ)言模型
https://blogs.nvidia.com/blog/mistral-nemo-minitron-8b-small-language-model/
NVIDIA 的 Mistral-NeMo-Minitron 8B 是 12B 模型的壓縮版本,它實(shí)現(xiàn)了最先進(jìn)的準(zhǔn)確度,同時(shí)又足夠小,可以在 RTX 工作站上運(yùn)行。