頭條
OpenAI 正在為 DALL-E 3 添加新水印
https://www.theverge.com/2024/2/6/24063954/ai-watermarks-dalle3-openai-content-credentials
OpenAI 正在按照內容來源和真實性聯盟 (C2PA) 的標準,在 DALL-E 3 生成的圖像中添加水印,以包含不可見的元數據和用于來源驗證的可見 CR 符號。
Microsoft Copilot for Sales 和 Copilot for Service 現已全面上市
https://cloudblogs.microsoft.com/dynamics365/bdm/2024/02/01/microsoft-copilot-for-sales-and-copilot-for-service-are-now-generally-available
微軟人工智能驅動的 Copilot for Sales and Service 現已全面上市。 它與 Salesforce 等 CRM 系統集成,可提高銷售和服務專業人員的工作效率。 這些工具可自動執行重復任務并直接在 Microsoft 365 應用程序中提供見解,旨在改善客戶交互并簡化業務工作流程。 像埃維諾這樣的早期采用者表示,使用這些 AI 功能可以節省大量時間并提高客戶參與度。
研究
CLIP 在完全合成數據上進行訓練
https://arxiv.org/abs/2402.01832
刪除 LAION 等大規模數據集,以及有效的版權問題,使得訓練大規模圖像模型變得具有挑戰性。 這項工作表明,可以使用 3000 萬張合成生成的圖像來訓練強大的 CLIP 模型。
適用于移動設備的微型語言模型
https://arxiv.org/abs/2402.02791v1
這項研究探討了如何通過關注參數較少的微型模型來使強大的語言模型更適合移動設備。
多模式LLM中應對幻覺的新工具
https://arxiv.org/abs/2402.03190v1
為了解決多模態大語言模型 (MLLM) 中幻覺的關鍵問題,研究人員開發了 MHaluBench,這是一種評估幻覺檢測方法的新基準。
工程
最先進的背景去除(GitHub Repo)
https://huggingface.co/briaai/RMBG-1.4
Bria AI 開源(非商業)其背景去除模型和工具,包括訓練數據混合和性能指標。 與其他開放模型相比,這是一個重大改進。
使用 InteractiveVideo 創建您自己的視頻
https://invictus717.github.io/InteractiveVideo/
InteractiveVideo 引入了一種新穎的視頻制作方式,用戶可以與創作過程進行動態交互。 與傳統方法不同,這種用戶友好的框架允許使用文本、圖像、繪畫甚至拖放進行實時修改。
AI 中的數學推理 (GitHub Repo)
https://github.com/deepseek-ai/deepseek-math
DeepSeekMath 7B 是專門為解決復雜數學問題而設計的語言模型。 它接受了大量以數學為中心的內容的培訓。
雜七雜八
開源1.3B文本轉語音模型
https://huggingface.co/metavoiceio/metavoice-1B-v0.1
新的 Meta Voice 模型是一個小型而強大的文本轉語音模型,支持生成和語音克隆。
AGI 帶來的變革
https://dcgross.com/agitrades
像 GPT-5 這樣的先進人工智能可能會對市場、房地產、勞動力、能源、國民經濟、地緣政治和經濟的通脹動態產生重大影響,從而導致對價值累積、全球權力轉移以及就業和經濟結構變化的重新評估 。
技術工業革命
https://www.notboring.co/p/the-techno-industrial-revolution
隨著人工智能工具和業務用例變得更加復雜,我們將開始看到越來越多的技術在現實世界中的應用。 審視這一機遇的一個視角是人工智能如何使流程更便宜、更高效,同時大幅提高利潤。 這可能會開啟一種全新的做事方式,而以前由于利潤太薄而沒有經濟意義。 本文探討了其中的一些示例。
Fabric (GitHub Repo)
https://github.com/danielmiessler/fabric
一個使用人工智能增強人類能力的開源框架。