數據科學簡訊 2023-02-23


頭條


AWS 與 Hugging Face 合作研發下一代 Bloom , 目標對手是ChatGPT

Bloom 是一種多語言模型,是 Huggingface 領導的協作成果。它是在法國超級計算機上訓練的,并試圖復制 GPT-3 大小的模型。 AWS 宣布他們將與 Huggingface 合作,成為這些大型開放模型的下一代首選計算提供商。

貝恩與 OpenAI 合作

可用于回答業務特定查詢的自定義模型。它結合了OpenAI行業領先的人工智能工具和平臺以及貝恩的戰略指導和數字化實施能力,幫助企業利用生成人工智能的力量實現業務轉型。

人工智能和 Instagram 問題:不要讓閃亮的物體讓你懷疑你工作的價值

本文討論了 Instagram 等社交媒體平臺上令人印象深刻的 AI 項目的流行如何讓其他開發人員對自己的工作感到不足。作者鼓勵 AI 開發者根據自己的標準來判斷他們的項目,不要被當前的流行趨勢所左右。 AI 領域在不斷發展,新技術不斷涌現,保持學習和與時俱進很重要。文章提醒開發者,一項新的熱門技術的出現并不意味著他們當前項目的價值有所降低。


研究


淺談大型語言模型

技術和哲學與大型語言模型 (LLM) 找到了有趣的交集。在提及這些系統時,我們經常使用擬人化的詞,例如“知道”、“理解”或“相信”。本文提倡社區在談論這些功能極其強大的系統時要小心,并使用更合適的語言(例如,編碼、存儲、包含)。

在文本中編碼圖像,無監督的文本圖像對齊

本文介紹了 LQAE,它使用預訓練的語言模型并將圖像編碼為文本標記序列,然后他們訓練具有 BERT 掩碼目標的解碼器,學習用相似的文本標記簇表示相似的圖像。他們訓練解碼器從預測的文本標記嵌入中重建原始圖像。這用于以無監督的方式對齊兩種模式。一個有趣的副作用是能夠將圖像壓縮為文本(僅幾 kb)并通過單個前向傳遞重建有損版本。

Pix2pix3D:3D 感知條件圖像合成

這項工作提出了 pix2pix3D,這是一種用于可控逼真圖像合成的 3D 感知條件生成模型。給定一個 2D 標簽圖,例如分割圖或邊緣圖,該模型學習從不同的視點合成相應的圖像。為了實現顯式 3D 用戶控制,作者擴展了具有神經輻射場的條件生成模型。給定廣泛可用的單目圖像和標簽圖對,該模型除了顏色和密度外,還學習為每個 3D 點分配標簽,這使其能夠同時渲染圖像和像素對齊的標簽圖。


工程


Engineering & Resources

將您的 DataFrame 變成用于可視化分析的 UI (GitHub Repo)

PyGWalker(發音為 Pig Walker)是一種用于對數據進行探索性分析的圖形工具。它允許您快速檢查關系、相關性和分布。自述文件庫中提供了示例和屏幕截圖。

通用音頻合成模型(GitHub Repo)

一種用于生成高保真音頻的通用聲碼器,能夠根據特定功能進行調節。這是同類中的第一個大規模 GAN 模型。提供模型、代碼和示例。

ControlNet:一種通過添加額外條件來控制擴散模型的神經網絡結構(GitHub Repo)

研究人員引入了一種名為 ControlNet 的神經網絡結構,它可以控制預訓練的大型擴散模型以支持額外的輸入條件。這種新方法允許以端到端的方式進行特定于任務的學習,并且能夠使用小型訓練數據集進行學習。訓練與微調擴散模型一樣快,可以在個人設備上完成,也可以使用強大的計算集群擴展到大量數據。研究人員證明,ControlNets 可以為大型擴散模型啟用條件輸入,例如邊緣圖、分割圖和關鍵點,這可以使各種相關應用受益。

BioGPT (GitHub Repo)

這個 GitHub 存儲庫包含 BioGPT 的實現,BioGPT 是一種用于生物醫學文本生成和挖掘的生成式預訓練轉換器。它僅用一小部分參數就優于 GPT-3。


雜七雜八


來自 Stanford MLSys group 的 Fast Attention 講座

關Transformer近期主要系統突破之一的精彩講座。 Flash Attention 已被幾乎所有主要的深度學習框架采用,并導致顯著的加速和改進的上下文長度。

滑鐵盧大學“數據科學優化”課程上線

本課程“數據科學優化”涵蓋了適用于數據科學的優化基本原則和技術。

要理解語言模型,我們必須將“語言”與“思想”分開

德克薩斯大學奧斯汀分校和麻省理工學院的研究人員撰寫了一篇論文,深入探討了圍繞大型語言模型 (LLM) 的困惑。他們認為,要了解 LLM 的力量和局限性,我們必須區分形式語言能力和功能語言能力。他們強調了 LLM 的謬誤,并指出 LLM 擅長語言,但在語言的功能方面仍有很多工作要做。他們認為,避免這些謬誤可能有助于尋找方法來構建能夠以類似人類的方式理解和使用語言的模型。

雜志因 AI 生成內容激增而暫停投稿

科幻出版物 Clarkesworld Magazine 正在暫停提交短篇小說,理由是人工智能生成的內容大量涌入。

生成式 AI 為律師服務

人工智能越來越多地被用于法律行業,引發了一場關于其使用的辯論,因為支持者吹捧它提高了效率,而反對者則指出了它的準確性問題。

我們的社會還沒有為這種令人敬畏的人工智能做好準備

本文論證了人工智能將成為社會進步的關鍵驅動力,但社會還沒有為此做好準備。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,698評論 6 539
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,202評論 3 426
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,742評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,580評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,297評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,688評論 1 327
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,693評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,875評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,438評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,183評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,384評論 1 372
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,931評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,612評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,022評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,297評論 1 292
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,093評論 3 397
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,330評論 2 377

推薦閱讀更多精彩內容