2024-11-01 簡(jiǎn)訊 : OpenAI 的新幻覺(jué)測(cè)試基準(zhǔn)


頭條


OpenAI 的新幻覺(jué)測(cè)試基準(zhǔn)

https://openai.com/index/introducing-simpleqa/

OpenAI 發(fā)布了 SimpleQA 基準(zhǔn),該基準(zhǔn)可衡量模型圍繞簡(jiǎn)單事實(shí)問(wèn)題的能力。

推動(dòng)音頻生成的前沿

https://deepmind.google/discover/blog/pushing-the-frontiers-of-audio-generation/

DeepMind 進(jìn)一步討論了用于支持 NotebookLM 的音頻生成模型。

評(píng)估特征轉(zhuǎn)向:減輕社會(huì)偏見(jiàn)的案例研究

https://www.anthropic.com/research/evaluating-feature-steering

本研究探索在 AI 模型中使用特征轉(zhuǎn)向來(lái)可解釋地修改輸出。它揭示了一個(gè)“轉(zhuǎn)向最佳點(diǎn)”,其中的變化不會(huì)降低能力。研究結(jié)果表明,轉(zhuǎn)向可以改變目標(biāo)領(lǐng)域的社會(huì)偏見(jiàn),但也會(huì)帶來(lái)意想不到的脫靶效應(yīng)。需要進(jìn)一步研究來(lái)改進(jìn)特征轉(zhuǎn)向,以便在 AI 模型中獲得更安全、更可靠的結(jié)果。


研究


ThunderKittens 2

https://hazyresearch.stanford.edu/blog/2024-10-29-tk2

Thunder Kittens 是一個(gè)用于編寫(xiě)性能極高的 GPU 內(nèi)核的框架。它建立在 GPU 實(shí)際上想要對(duì) 16x16 的小塊數(shù)據(jù)進(jìn)行操作的理念之上。因此,可用性非常高,而 40% 更快的內(nèi)核只需要幾百行代碼。

逼真的運(yùn)動(dòng)重定向

https://abcyzj.github.io/MeshRet/

MeshRet 引入了一種用于改進(jìn) 3D 角色運(yùn)動(dòng)重定向的新方法,該方法側(cè)重于從一開(kāi)始就保留身體幾何交互。

通過(guò)自引導(dǎo)采樣實(shí)現(xiàn)更好的生成

https://arxiv.org/abs/2410.13136v1

研究人員使用一種新的自引導(dǎo)采樣方法增強(qiáng)了蒙版生成模型 (MGM),提高了其圖像生成質(zhì)量,同時(shí)保持了多樣性。


工程


使用標(biāo)記合并加速 Transformers

https://github.com/hchautran/PiToMe

該項(xiàng)目引入了 PiToMe,這是一種通過(guò)在每一層之后逐步合并標(biāo)記來(lái)壓縮 Vision Transformers 的算法。此方法減少了處理的標(biāo)記數(shù)量。

無(wú)姿勢(shì)數(shù)據(jù)的 3D 重建

https://cvlab-kaist.github.io/PF3plat/

PF3plat 解決了無(wú)姿勢(shì) 3D 重建和從 RGB 圖像合成新視圖的挑戰(zhàn),無(wú)需額外的數(shù)據(jù)。

評(píng)估數(shù)據(jù)管理方法的基準(zhǔn)

https://github.com/jimmyxu123/select

SELECT 是第一個(gè)用于比較圖像分類中數(shù)據(jù)管理策略的大規(guī)?;鶞?zhǔn)。ImageNet++ 是一個(gè)新數(shù)據(jù)集,它擴(kuò)展了 ImageNet-1K,增加了五個(gè)新的訓(xùn)練數(shù)據(jù)轉(zhuǎn)換,每個(gè)轉(zhuǎn)換都使用不同的管理技術(shù)進(jìn)行組裝。


雜七雜八


將 LLM 微調(diào)至 1.58 位:極端量化變得簡(jiǎn)單

https://huggingface.co/blog/1_58_llm_extreme_quantization

由微軟研究院開(kāi)發(fā)的 BitNet 引入了一種轉(zhuǎn)換器架構(gòu),通過(guò)使用三元精度 (-1, 0, 1)(相當(dāng)于每個(gè)參數(shù) 1.58 位)來(lái)降低 LLM 計(jì)算和內(nèi)存要求。模型需要從頭開(kāi)始訓(xùn)練。BitNet 還可以將現(xiàn)有模型微調(diào)為這種低精度格式,在下游任務(wù)上保持強(qiáng)勁性能。這種方法使用專門的內(nèi)核進(jìn)行高效的矩陣乘法,顯著降低了能耗并提高了推理速度。

我們?nèi)绾瓮ㄟ^(guò)使用 LLM 編寫(xiě)測(cè)試節(jié)省數(shù)百個(gè)工程小時(shí)

https://www.assembled.com/blog/how-we-saved-hundreds-of-engineering-hours-by-writing-tests-with-llms

Assembled 使用 LLM 來(lái)加速和改進(jìn)軟件測(cè)試,使測(cè)試生成時(shí)間從數(shù)小時(shí)縮短到數(shù)分鐘。這種方法提高了工程效率,節(jié)省了時(shí)間,并將重點(diǎn)轉(zhuǎn)移到功能開(kāi)發(fā)上。LLM 可以生成全面而準(zhǔn)確的測(cè)試,從而保持代碼質(zhì)量和開(kāi)發(fā)速度。

Apple Intelligence 首次亮相,25% 的智能手機(jī)用戶不想要 AI

https://www.cnet.com/tech/mobile/25-of-smartphone-owners-dont-want-ai-as-apple-intelligence-debuts/

CNET 的一項(xiàng)調(diào)查顯示,只有 18% 的智能手機(jī)用戶會(huì)因?yàn)?AI 功能而升級(jí)設(shè)備,隱私和成本是主要問(wèn)題。Apple、Google 和三星等主要制造商正在手機(jī)中集成更多 AI 功能,但許多用戶優(yōu)先考慮電池壽命和存儲(chǔ),而不是 AI 功能。AI 訂閱即將變得普遍,但近一半的用戶不愿意為這些功能付費(fèi)。

Google 準(zhǔn)備在 Chrome 中運(yùn)行“Jarvis”AI 代理

https://9to5google.com/2024/10/26/google-jarvis-agent-chrome/

Google 的 Jarvis 項(xiàng)目由 Gemini 2.0 提供支持,旨在通過(guò)使用具有推理和規(guī)劃能力的 AI 代理自動(dòng)執(zhí)行 Chrome 中的基于 Web 的任務(wù)。

研究人員稱,OpenAI 的 Whisper 轉(zhuǎn)錄工具存在幻覺(jué)問(wèn)題

https://techcrunch.com/2024/10/26/openais-whisper-transcription-tool-has-hallucination-issues-researchers-say/

人們開(kāi)始擔(dān)心 OpenAI 的 Whisper 在轉(zhuǎn)錄中引入幻覺(jué),甚至在醫(yī)學(xué)環(huán)境中也是如此。

Forerunner K2 人形機(jī)器人每只靈巧的手可以攜帶 33 磅

https://newatlas.com/ai-humanoids/kepler-forerunner-k2-humanoid-robot/

Kepler 推出了 Forerunner K2 人形機(jī)器人,該機(jī)器人擁有先進(jìn)的人工智能、改進(jìn)的硬件以及增強(qiáng)的視覺(jué)和導(dǎo)航系統(tǒng),可實(shí)現(xiàn)更好的實(shí)時(shí)交互。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書(shū)系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,345評(píng)論 6 531
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 98,494評(píng)論 3 416
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人,你說(shuō)我怎么就攤上這事?!?“怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 176,283評(píng)論 0 374
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 62,953評(píng)論 1 309
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 71,714評(píng)論 6 410
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 55,186評(píng)論 1 324
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,255評(píng)論 3 441
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 42,410評(píng)論 0 288
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 48,940評(píng)論 1 335
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 40,776評(píng)論 3 354
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 42,976評(píng)論 1 369
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,518評(píng)論 5 359
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 44,210評(píng)論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 34,642評(píng)論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 35,878評(píng)論 1 286
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 51,654評(píng)論 3 391
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 47,958評(píng)論 2 373

推薦閱讀更多精彩內(nèi)容