武漢實習周記(五六)

工作之后,感覺時間過得很快,總是錯把周四當成周三。想要時間過的慢一點,還是需要多記錄、多感知,給自己一個坐標系,不然連實習到第幾周都是模糊的。

寫道這里想到湯質老師曾經分享過:“創作者的本質都是極其自私的,他首先解決的是自己的問題,比如經濟來源、復盤自己的經驗與方法、影響力的獲取等等”

這篇文章的目的很明確,記錄一下,加深自己對時間的感知度。

步入正題,還是分為三個部分,技術篇、認知篇、游玩篇。

技術篇

1. ShardingSphere-Proxy的任務交付了,項目本身存在問題,分表方案沒有被采用,目前公司僅使用proxy進行數據遷移和對分表進行管理。

2. 學習Python,目前已分配到的任務是編寫一個和gpt-4o的實時對話demo。通過這個任務,讓我對大模型有了一些接觸。

拿最近一個驚嘆到我的例子來說吧!

——openai的whisper語音識別模型

該模型的主要作用是將語音轉錄成文字和將識別到的任何語言翻譯成英文。

先放一張具體處理流程圖:

wisper

過程比較復雜,我也不是很明白。讓我震驚的不是模型構建的多么地復雜,而是訓練時間。

680000小時

68萬小時,這是一個什么概念呢?打個比方,一個人每天訓練14個小時,一年按照365天計算,大概需要133年。

識別效果怎么樣呢?

下圖是兩次調用的結果,第一次調用沒有用prompt,導致有一些錯字和缺失標點符號。

openapi-whisper-1調用

這個模式主要訓練材料是英語,英文識別會更好一點。

語音識別只是第一步,識別到之后,就可以在上層構架各種各樣的應用了。比如:給音視頻添加字幕、從音視頻中提出文本、會議或者B站視頻實時字幕、AI換音等等。

認知篇

佛陀存在的本身,比它的任何理論都更值得令人敬畏。一切認知都要回歸現實、回歸生產,不然的話,就是消遣,就是欺騙自己。

游玩篇

武漢比較著名的幾個地方基本上都去過了,躺在家里呆了四天。以刷手機為主,輔以各種雜事。

這四天呆下來的感受是周末兩天還是需要抽出來一天出去走走,哪怕是全當散步,也比呆在屋子里面要好很多。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容