頭條
Voicemod 籌集了 1450 萬(wàn)美元以推動(dòng)生成式 AI(聲波)繁榮
Voicemod 已成為實(shí)時(shí)變聲和音板技術(shù)的領(lǐng)先創(chuàng)造者。他們的使命是讓每個(gè)人都能通過(guò)聲音表達(dá)自己。他們構(gòu)建了富有表現(xiàn)力和身臨其境的音頻工具,可以輕松創(chuàng)建獨(dú)特的聲音特性并實(shí)現(xiàn)與個(gè)性化聲音的交互。這將是巨大的,因?yàn)椴タ汀?huà)外音和有聲讀物空間在過(guò)去幾年里爆炸式增長(zhǎng)。
Deep Graph Library 達(dá)到 1.0
DGL 是圖深度學(xué)習(xí)中一個(gè)強(qiáng)大而有用的工具,現(xiàn)已推出 1.0 版!其中包括數(shù)百個(gè)最先進(jìn)的圖形網(wǎng)絡(luò)、基線和各種圖形編輯實(shí)用程序的示例。它們還具有用于消息傳遞算法和多 GPU 訓(xùn)練的模塊化構(gòu)建塊。所有這些都組合成一個(gè)工具包,可以擴(kuò)展強(qiáng)大的算法來(lái)繪制數(shù)十億個(gè)連接圖。
研究
通過(guò)檢索文檔生成代碼
由于代碼接口經(jīng)常變化和上下文學(xué)習(xí)的局限性,強(qiáng)烈需要能夠在不進(jìn)行昂貴的數(shù)據(jù)收集和模型再訓(xùn)練的情況下更新程序綜合性能。這項(xiàng)工作表明使用文檔可以改進(jìn) CodeT5 的生成代碼。結(jié)果很好,提高了約 3% 這不是根本性的變化,但對(duì)從業(yè)者來(lái)說(shuō)可能是一個(gè)有用的技巧
語(yǔ)言不是你所需要的全部:將感知與語(yǔ)言模型相結(jié)合
KOSMOS-12 是一種多模式大型語(yǔ)言模型,可以在上下文中學(xué)習(xí)、遵循指令并感知一般模式。它在一系列任務(wù)上取得了令人印象深刻的表現(xiàn),包括語(yǔ)言理解、感知語(yǔ)言和視覺(jué)任務(wù)。該模型在網(wǎng)絡(luò)規(guī)模的多模態(tài)語(yǔ)料庫(kù)上進(jìn)行了訓(xùn)練,并受益于跨模態(tài)遷移。作者還介紹了一個(gè)用于診斷 MLLM 的非語(yǔ)言推理能力的數(shù)據(jù)集。
定向擴(kuò)散:通過(guò)注意力引導(dǎo)直接控制物體放置
文本引導(dǎo)的擴(kuò)散模型很難在特定位置組成具有多個(gè)對(duì)象的場(chǎng)景,這在講故事中至關(guān)重要。為了解決這個(gè)問(wèn)題,作者提出了 Directed Diffusion,這是一種通過(guò)在交叉注意力圖中的所需位置注入“激活”同時(shí)衰減其余位置來(lái)提供對(duì)多個(gè)對(duì)象的位置控制的方法。此方法可與現(xiàn)有的預(yù)訓(xùn)練模型一起使用,并且只需要幾行代碼即可實(shí)現(xiàn)。
工程
ChatLLaMA:基于 Meta 的 LLaMA 模型的 ChatGPT (GitHub Repo)
Meta 最近發(fā)布了 LLaMA 集合,包含 7 到 650 億個(gè)參數(shù)模型,這些模型比 GPT-3 更小,但表現(xiàn)出更好的性能。這個(gè)新系列為更快的推理性能和實(shí)時(shí)助手打開(kāi)了大門(mén),同時(shí)具有成本效益并在單個(gè) GPU 上運(yùn)行。然而,它們并沒(méi)有針對(duì)教學(xué)任務(wù)進(jìn)行微調(diào)。為了解決這個(gè)問(wèn)題,ChatLLaMA 作為第一個(gè)基于人類反饋強(qiáng)化學(xué)習(xí) (RLHF) 訓(xùn)練過(guò)程的 LLaMA 開(kāi)源實(shí)現(xiàn)被引入。它支持所有 LLaMA 模型架構(gòu),與原始 ChatGPT 相比,允許更快、更便宜的訓(xùn)練和推理。
VoxFormer:3D 語(yǔ)義占用預(yù)測(cè)的前沿基線 (Github Repo)
作者提出了 voxformer,這是一個(gè)框架,旨在使 AI 系統(tǒng)能夠從 2D 圖像中想象出被遮擋物體和場(chǎng)景的完整 3D 幾何形狀。 VoxFormer 使用兩階段設(shè)計(jì),其中一組稀疏的可見(jiàn)和占用的體素查詢來(lái)自深度估計(jì),然后是生成密集 3D 體素的致密化階段。該框架采用掩碼自動(dòng)編碼器設(shè)計(jì),通過(guò)自注意力將信息傳播到所有體素。 SemanticKITTI 上的實(shí)驗(yàn)表明,VoxFormer 優(yōu)于現(xiàn)有技術(shù),在幾何方面相對(duì)改進(jìn)了 20.0%,在語(yǔ)義方面相對(duì)改進(jìn)了 18.1%,并且在訓(xùn)練期間將 GPU 內(nèi)存減少了約 45% 至不到 16GB。
雜七雜八
人工智能計(jì)算 40 年
對(duì) AI 多年來(lái)的各種趨勢(shì)的一個(gè)很好的匯編。所需的計(jì)算量每 9 個(gè)月翻一番,而參數(shù)數(shù)量每 18 個(gè)月翻一番。到 2031 年,硬件改進(jìn)可能會(huì)得到改善。訓(xùn)練超過(guò) 15 個(gè)月的模型沒(méi)有意義。這不僅限于語(yǔ)言,還包括視覺(jué)和 RL。包括交互式圖表。
冷靜,沒(méi)有有意識(shí)的AI
這篇文章提醒我們,盡管 Bing AI 和 ChatGPT 看似人類的反應(yīng),但這些聊天機(jī)器人并沒(méi)有意識(shí)或感知力。在我們實(shí)現(xiàn)通用人工智能 (AGI) 之前,我們還有很長(zhǎng)的路要走,這正是 OpenAI 最初著手解決和保護(hù)人類免受侵害的問(wèn)題。
Ask Seneca (Product Launch)
從基于 Seneca 的基于 GPT3 的斯多葛哲學(xué)家那里獲得生活建議。
組建人工智能產(chǎn)品團(tuán)隊(duì)
Meta 正在組建一個(gè) AI 產(chǎn)品團(tuán)隊(duì),專注于為 WhatsApp、Messenger 和 Instagram 添加生成 AI 功能。
Learn Prompting (Online Course)
Learn prompting 是關(guān)于提示工程的免費(fèi)開(kāi)源課程。