頭條
Gemini 2.5 Pro預覽
https://blog.google/products/gemini/gemini-2-5-pro-updates/
谷歌發布了Gemini 2.5 Pro的預覽版,它在構建網絡應用程序、代碼轉換和多模態推理方面性能更強。
Pinterest新視覺搜索功能
https://newsroom.pinterest.com/news/introducing-new-visual-search-features/
Pinterest 用新工具升級了基于圖像的搜索,這些工具能幫用戶縮小搜索結果范圍、探索風格,該功能首先在部分地區的女裝品類中推出。
KEVIN-32B
https://cognition.ai/blog/kevin-32b
KEVIN-32B是一款利用強化學習進行多輪代碼生成的模型,在開發CUDA內核方面表現優于現有模型。它通過優化中間反饋和采用高效獎勵分配,提升了內核性能和正確性。與單輪方法相比,多輪訓練增強了模型的問題解決能力,在更復雜的任務中尤其如此。
研究
如何在不落入《通用數據保護條例》(GDPR)陷阱的情況下訓練人工智能模型?
https://www.lexology.com/library/detail.aspx
人工智能模型開發者在開發階段可通過使用匿名數據集或應用化名技術來確保符合《通用數據保護條例》(GDPR)。若無法實現匿名化,他們可以加強數據安全并保障數據主體的權利。也建議采取一些透明化措施,比如公開數據使用情況。
人工智能生成的圖像真能被視為藝術嗎?
https://spectrum.ieee.org/ai-art-whitney-museum
惠特尼博物館館長克里斯蒂安妮·保羅強調了人工智能在數字藝術中的作用,將哈羅德·科恩的AARON等歷史程序與如今的人工智能模型進行了對比。她強調與工程師合作的重要性,以及由于技術不斷發展,保存數字藝術面臨的挑戰。保羅認為,人工智能生成的視覺作品要成為真正的藝術,需要一個概念框架。
自動取整量化
https://huggingface.co/blog/autoround
AutoRound是一種訓練后量化方法,能在保持性能和效率的同時,提高低比特模型的準確率。
工程
用于時間序列的大語言模型(LLM):A Survey
https://arxiv.org/abs/2505.02583
這項調查探究了跨模態技術如何調整大語言模型以用于時間序列分析,重點關注多個領域的數據對齊、融合以及下游任務的表現。
高效推理的草稿鏈
https://arxiv.org/abs/2502.18600
“草稿鏈”是一種簡潔的推理策略,能大幅減少標記使用量,同時在復雜任務中達到或超越“思維鏈”的準確率 。
合成數據質量保證框架(GitHub 倉庫)
https://github.com/mostly-ai/mostlyai-qa
這個評估工具包提供標準化指標,通過基于分布和嵌入的方法,評估各種數據類型的合成數據的質量和隱私性。
其他
DDT:解耦擴散Transformer(GitHub代碼庫)
https://github.com/MCG-NJU/DDT
基于擴散模型作為解碼器的Transformer編碼器/解碼器實現。在ImageNet圖像生成上似乎效果還不錯。
英偉達廣播嵌入模型(Hugging Face模型庫)
https://huggingface.co/collections/nvidia/radio-669f77f1dd6b153f007dd1c6
英偉達有一系列文本和圖像嵌入模型,在很多情況下與SigLIP不相上下。
人工智能在重型機械和農業領域的應用
https://links.tldrnewsletter.com/mEHOaa
農業和建筑設備制造商巨頭約翰迪爾,利用人工智能,借助“看見即噴灑”(See & Spray)等精準工具提高農業生產效率。該工具能高速識別單株雜草,大幅減少化學品使用量。
Anthropic為所有付費Claude計劃開啟網絡搜索功能
https://links.tldrnewsletter.com/bC460l
Anthropic已為所有付費Claude套餐開通網絡搜索功能,增加了實時查詢和來源引用。
小語言課程利用生成式人工智能讓語言練習更具個性化
https://blog.google/outreach-initiatives/education/little-language-lessons/
谷歌的“小語言課”借助“微課程”“俚語派對”和“單詞相機”等實驗,利用模型開展現實世界中的語言學習。