頭條
OpenAI 改進圖像生成技術
https://links.tldrnewsletter.com/KsWq7r
OpenAI的GPT-4o在圖像生成方面有改進,能精準呈現文本、遵循指令,還支持多輪編輯。
DeepSeek V3-0324 發布,遵循 MIT 許可
https://api-docs.deepseek.com/news/news250325
DeepSeek發布了新的V3-0324模型,該模型在大多數基準測試中表現優于GPT 4.5,性能有重大提升。
通義千問2.5 320億參數視覺語言模型
https://qwenlm.github.io/blog/qwen2.5-vl-32b/
通義千問發布了一款強大的視覺語言模型,它是開源的,且能在消費級硬件上較好運行。
研究
調整大語言模型的后期訓練以實現多樣化創意寫作
https://arxiv.org/abs/2503.17126
Midjourney發布了一些成果,旨在提升創意寫作模型的多樣性。該公司能夠對一個小型7B模型進行后期訓練,這個模型在創意寫作方面的表現優于許多更大的開源和閉源模型。
視頻T1
https://liuff19.github.io/Video-T1/
測試時計算用于處理視頻,該視頻使用引導模型剔除不符合物理規律或用戶指定提示的幀路徑。在這項任務中使用測試時計算可顯著提升基準測試性能。
3D面部編輯
https://arxiv.org/abs/2503.17095v1
FFaceNeRF克服了基于NeRF方法中固定蒙版的限制,提升了3D面部編輯效果。
工程
視覺幾何基礎Transformer(GitHub代碼庫)
https://github.com/facebookresearch/vggt
VGGT是一種前饋神經網絡,能在數秒內,從一個、幾個或數百個場景視圖中,直接推斷出場景所有關鍵的3D屬性,包括相機的外部和內部參數、點圖、深度圖以及3D點軌跡。
消除任何圖像的反射
https://abuuu122.github.io/DAI.github.io/
去反射任意圖像(DAI)引入了一種全新的基于擴散的去反射方法,利用了高質量數據集和漸進式訓練。
帶FastCurl的慢思考推理模型(GitHub代碼庫)
https://github.com/nick7nlp/FastCuRL
FastCuRL-1.5B-Preview通過課程強化學習推動慢思考推理模型發展,用更少訓練步驟取得了頂尖成果。
其他
單圖像迭代主體驅動生成與編輯
SISO是一種推理時優化方法,無需訓練就能根據單張主體圖像定制圖像。它可以定制給定圖像的主體,或者生成帶有該主體的新圖像。
曼尼·梅迪納的新初創公司:PAID
Outreach創始人曼尼·梅迪納推出了Paid平臺,該平臺旨在幫助人工智能智能體初創企業管理定價和盈利能力。在頂級投資者的支持下,Paid旨在重新定義在新興的智能體經濟中,人工智能智能體如何計費和估值。
DeepMind一位關鍵的機器人研究員離開谷歌,英偉達已對他的秘密初創公司進行投資
皮特·弗洛倫斯此前是DeepMind的資深研究科學家,如今離職創立了通用人工智能公司(Generalist AI),這是一家獲英偉達風投部門NVentures支持的機器人初創企業。該公司旨在打造通用機器人,弗洛倫斯強調其愿景是將體力勞動的邊際成本降至零。在英偉達于人工智能領域影響力日增之際,弗洛倫斯和其他前DeepMind科學家一同投身科技創業。
克勞德現在可以搜索網絡了
https://links.tldrnewsletter.com/MRRtx3
Claude現在具備網絡搜索功能,可提供實時見解和最新回復,還帶有來源引用。
在 API 中推出下一代音頻模型
https://links.tldrnewsletter.com/xD3bfz
OpenAI推出了新的音頻模型,包括語音引擎,它能根據簡短樣本生成逼真的語音。
據報道,Perplexity正在洽談融資事宜,計劃以180億美元的估值籌集至多10億美元。
人工智能搜索初創公司Perplexity正洽談以180億美元估值籌集10億美元。