頭條
OpenAI 的新幻覺(jué)測(cè)試基準(zhǔn)
https://openai.com/index/introducing-simpleqa/
OpenAI 發(fā)布了 SimpleQA 基準(zhǔn),該基準(zhǔn)可衡量模型圍繞簡(jiǎn)單事實(shí)問(wèn)題的能力。
推動(dòng)音頻生成的前沿
https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/
DeepMind 進(jìn)一步討論了用于支持 NotebookLM 的音頻生成模型。
評(píng)估特征轉(zhuǎn)向:減輕社會(huì)偏見(jiàn)的案例研究
https://www.anthropic.com/research/evaluating-feature-steering
本研究探索在 AI 模型中使用特征轉(zhuǎn)向來(lái)可解釋地修改輸出。它揭示了一個(gè)“轉(zhuǎn)向最佳點(diǎn)”,其中的變化不會(huì)降低能力。研究結(jié)果表明,轉(zhuǎn)向可以改變目標(biāo)領(lǐng)域的社會(huì)偏見(jiàn),但也會(huì)帶來(lái)意想不到的脫靶效應(yīng)。需要進(jìn)一步研究來(lái)改進(jìn)特征轉(zhuǎn)向,以便在 AI 模型中獲得更安全、更可靠的結(jié)果。
研究
ThunderKittens 2
https://hazyresearch.stanford.edu/blog/2024-10-29-tk2
Thunder Kittens 是一個(gè)用于編寫(xiě)性能極高的 GPU 內(nèi)核的框架。它建立在 GPU 實(shí)際上想要對(duì) 16x16 的小塊數(shù)據(jù)進(jìn)行操作的理念之上。因此,可用性非常高,而 40% 更快的內(nèi)核只需要幾百行代碼。
逼真的運(yùn)動(dòng)重定向
https://abcyzj.github.io/MeshRet/
MeshRet 引入了一種用于改進(jìn) 3D 角色運(yùn)動(dòng)重定向的新方法,該方法側(cè)重于從一開(kāi)始就保留身體幾何交互。
通過(guò)自引導(dǎo)采樣實(shí)現(xiàn)更好的生成
https://arxiv.org/abs/2410.13136v1
研究人員使用一種新的自引導(dǎo)采樣方法增強(qiáng)了蒙版生成模型 (MGM),提高了其圖像生成質(zhì)量,同時(shí)保持了多樣性。
工程
使用標(biāo)記合并加速 Transformers
https://github.com/hchautran/PiToMe
該項(xiàng)目引入了 PiToMe,這是一種通過(guò)在每一層之后逐步合并標(biāo)記來(lái)壓縮 Vision Transformers 的算法。此方法減少了處理的標(biāo)記數(shù)量。
無(wú)姿勢(shì)數(shù)據(jù)的 3D 重建
https://cvlab-kaist.github.io/PF3plat/
PF3plat 解決了無(wú)姿勢(shì) 3D 重建和從 RGB 圖像合成新視圖的挑戰(zhàn),無(wú)需額外的數(shù)據(jù)。
評(píng)估數(shù)據(jù)管理方法的基準(zhǔn)
https://github.com/jimmyxu123/select
SELECT 是第一個(gè)用于比較圖像分類中數(shù)據(jù)管理策略的大規(guī)?;鶞?zhǔn)。ImageNet++ 是一個(gè)新數(shù)據(jù)集,它擴(kuò)展了 ImageNet-1K,增加了五個(gè)新的訓(xùn)練數(shù)據(jù)轉(zhuǎn)換,每個(gè)轉(zhuǎn)換都使用不同的管理技術(shù)進(jìn)行組裝。
雜七雜八
將 LLM 微調(diào)至 1.58 位:極端量化變得簡(jiǎn)單
https://huggingface.co/blog/1_58_llm_extreme_quantization
由微軟研究院開(kāi)發(fā)的 BitNet 引入了一種轉(zhuǎn)換器架構(gòu),通過(guò)使用三元精度 (-1, 0, 1)(相當(dāng)于每個(gè)參數(shù) 1.58 位)來(lái)降低 LLM 計(jì)算和內(nèi)存要求。模型需要從頭開(kāi)始訓(xùn)練。BitNet 還可以將現(xiàn)有模型微調(diào)為這種低精度格式,在下游任務(wù)上保持強(qiáng)勁性能。這種方法使用專門的內(nèi)核進(jìn)行高效的矩陣乘法,顯著降低了能耗并提高了推理速度。
我們?nèi)绾瓮ㄟ^(guò)使用 LLM 編寫(xiě)測(cè)試節(jié)省數(shù)百個(gè)工程小時(shí)
https://www.assembled.com/blog/how-we-saved-hundreds-of-engineering-hours-by-writing-tests-with-llms
Assembled 使用 LLM 來(lái)加速和改進(jìn)軟件測(cè)試,使測(cè)試生成時(shí)間從數(shù)小時(shí)縮短到數(shù)分鐘。這種方法提高了工程效率,節(jié)省了時(shí)間,并將重點(diǎn)轉(zhuǎn)移到功能開(kāi)發(fā)上。LLM 可以生成全面而準(zhǔn)確的測(cè)試,從而保持代碼質(zhì)量和開(kāi)發(fā)速度。
Apple Intelligence 首次亮相,25% 的智能手機(jī)用戶不想要 AI
https://www.cnet.com/tech/mobile/25-of-smartphone-owners-dont-want-ai-as-apple-intelligence-debuts/
CNET 的一項(xiàng)調(diào)查顯示,只有 18% 的智能手機(jī)用戶會(huì)因?yàn)?AI 功能而升級(jí)設(shè)備,隱私和成本是主要問(wèn)題。Apple、Google 和三星等主要制造商正在手機(jī)中集成更多 AI 功能,但許多用戶優(yōu)先考慮電池壽命和存儲(chǔ),而不是 AI 功能。AI 訂閱即將變得普遍,但近一半的用戶不愿意為這些功能付費(fèi)。
Google 準(zhǔn)備在 Chrome 中運(yùn)行“Jarvis”AI 代理
https://9to5google.com/2024/10/26/google-jarvis-agent-chrome/
Google 的 Jarvis 項(xiàng)目由 Gemini 2.0 提供支持,旨在通過(guò)使用具有推理和規(guī)劃能力的 AI 代理自動(dòng)執(zhí)行 Chrome 中的基于 Web 的任務(wù)。
研究人員稱,OpenAI 的 Whisper 轉(zhuǎn)錄工具存在幻覺(jué)問(wèn)題
人們開(kāi)始擔(dān)心 OpenAI 的 Whisper 在轉(zhuǎn)錄中引入幻覺(jué),甚至在醫(yī)學(xué)環(huán)境中也是如此。
Forerunner K2 人形機(jī)器人每只靈巧的手可以攜帶 33 磅
https://newatlas.com/ai-humanoids/kepler-forerunner-k2-humanoid-robot/
Kepler 推出了 Forerunner K2 人形機(jī)器人,該機(jī)器人擁有先進(jìn)的人工智能、改進(jìn)的硬件以及增強(qiáng)的視覺(jué)和導(dǎo)航系統(tǒng),可實(shí)現(xiàn)更好的實(shí)時(shí)交互。