亚洲精品成人片在线观看精品字幕,大香伊煮焦成品免产品价格,伊人色综合久久天天小片

作者：施晨、之用、南茵、求伯、一耘、臨在

背景信息

內(nèi)容簡(jiǎn)介

在大模型時(shí)代，隨著模型效果的顯著提升，模型評(píng)測(cè)的重要性日益凸顯。科學(xué)、高效的模型評(píng)測(cè)，不僅能幫助開發(fā)者有效地衡量和對(duì)比不同模型的性能，更能指導(dǎo)他們進(jìn)行精準(zhǔn)地模型選擇和優(yōu)化，加速AI創(chuàng)新和應(yīng)用落地。因此，建立一套平臺(tái)化的大模型評(píng)測(cè)最佳實(shí)踐愈發(fā)重要。
本文為PAI大模型評(píng)測(cè)最佳實(shí)踐，旨在指引AI開發(fā)人員使用PAI平臺(tái)進(jìn)行大模型評(píng)測(cè)。借助本最佳實(shí)踐，您可以輕松構(gòu)建出既能反映模型真實(shí)性能，又能滿足行業(yè)特定需求的評(píng)測(cè)過程，助力您在人工智能賽道上取得更好的成績(jī)。最佳實(shí)踐包括如下內(nèi)容：

如何準(zhǔn)備和選擇評(píng)測(cè)數(shù)據(jù)集
如何選擇適合業(yè)務(wù)的開源或微調(diào)后模型
如何創(chuàng)建評(píng)測(cè)任務(wù)并選擇合適的評(píng)價(jià)指標(biāo)
如何在單任務(wù)或多任務(wù)場(chǎng)景下解讀評(píng)測(cè)結(jié)果

平臺(tái)亮點(diǎn)

PAI大模型評(píng)測(cè)平臺(tái)，適合您針對(duì)不同的大模型評(píng)測(cè)場(chǎng)景，進(jìn)行模型效果對(duì)比。例如：

不同基礎(chǔ)模型對(duì)比：Qwen2-7B-Instruct vs. Baichuan2-7B-Chat
同一模型不同微調(diào)版本對(duì)比：Qwen2-7B-Instruct 在私有領(lǐng)域數(shù)據(jù)下訓(xùn)練不同 epoch 版本效果對(duì)比
同一模型不同量化版本對(duì)比：Qwen2-7B-Instruct-GPTQ-Int4 vs. Qwen2-7B-Instruct-GPTQ-Int8

考慮到不同開發(fā)群體的特定需求，我們將以企業(yè)開發(fā)者與算法研究人員兩個(gè)典型群體為例，探討如何結(jié)合常用的公開數(shù)據(jù)集（如MMLU、C-Eval等）與企業(yè)的自定義數(shù)據(jù)集，實(shí)現(xiàn)更全面準(zhǔn)確并具有針對(duì)性的模型評(píng)測(cè)，查找適合您業(yè)務(wù)需求的大模型。最佳實(shí)踐的亮點(diǎn)如下：

端到端完整評(píng)測(cè)鏈路，無需代碼開發(fā)，支持主流開源大模型，與大模型微調(diào)后的一鍵評(píng)測(cè)；
支持用戶自定義數(shù)據(jù)集上傳，內(nèi)置10+通用NLP評(píng)測(cè)指標(biāo)，一覽式結(jié)果展示，無需再開發(fā)評(píng)測(cè)腳本；
支持多個(gè)領(lǐng)域的常用公開數(shù)據(jù)集評(píng)測(cè)，完整還原官方評(píng)測(cè)方法，雷達(dá)圖全景展示，省去逐個(gè)下載評(píng)測(cè)集和熟悉評(píng)測(cè)流程的繁雜；
支持多模型多任務(wù)同時(shí)評(píng)測(cè)，評(píng)測(cè)結(jié)果圖表式對(duì)比展示，輔以單條評(píng)測(cè)結(jié)果詳情，方便全方位比較分析；
評(píng)測(cè)過程公開透明，結(jié)果可復(fù)現(xiàn)。評(píng)測(cè)代碼開源在與ModelScope共建的開源代碼庫eval-scope中，方便細(xì)節(jié)查看與復(fù)現(xiàn)：https://github.com/modelscope/eval-scope

前提條件

已開通PAI并創(chuàng)建了默認(rèn)工作空間。具體操作，請(qǐng)參見開通PAI并創(chuàng)建默認(rèn)工作空間。
如果選擇自定義數(shù)據(jù)集評(píng)測(cè)，需要?jiǎng)?chuàng)建OSS Bucket存儲(chǔ)空間，用來存放數(shù)據(jù)集文件。具體操作，請(qǐng)參見控制臺(tái)創(chuàng)建存儲(chǔ)空間。

使用費(fèi)用

PAI大模型評(píng)測(cè)依托于PAI-快速開始產(chǎn)品。快速開始是PAI產(chǎn)品組件，集成了眾多AI開源社區(qū)中優(yōu)質(zhì)的預(yù)訓(xùn)練模型，并且基于開源模型支持零代碼實(shí)現(xiàn)從訓(xùn)練到部署再到推理的全部過程，給您帶來更快、更高效、更便捷的AI應(yīng)用體驗(yàn)。
快速開始本身不收費(fèi)，但使用快速開始進(jìn)行模型評(píng)測(cè)時(shí)，可能產(chǎn)生DLC評(píng)測(cè)任務(wù)費(fèi)用，計(jì)費(fèi)詳情請(qǐng)參見DLC計(jì)費(fèi)說明。
如果選擇自定義數(shù)據(jù)集評(píng)測(cè)，使用OSS存儲(chǔ)，會(huì)產(chǎn)生相關(guān)費(fèi)用，計(jì)費(fèi)詳情請(qǐng)參見OSS計(jì)費(fèi)概述。

場(chǎng)景一：面向企業(yè)開發(fā)者的自定義數(shù)據(jù)集評(píng)測(cè)

企業(yè)通常會(huì)積累豐富的私有領(lǐng)域數(shù)據(jù)。如何充分利用好這部分?jǐn)?shù)據(jù)，是企業(yè)使用大模型進(jìn)行算法優(yōu)化的關(guān)鍵。因此，企業(yè)開發(fā)者在評(píng)測(cè)開源或微調(diào)后的大模型時(shí)，往往會(huì)基于私有領(lǐng)域下積累的自定義數(shù)據(jù)集，以便于更好地了解大模型在私有領(lǐng)域的效果。
對(duì)于自定義數(shù)據(jù)集評(píng)測(cè)，我們使用NLP領(lǐng)域標(biāo)準(zhǔn)的文本匹配方式，計(jì)算模型輸出結(jié)果和真實(shí)結(jié)果的匹配度，值越大，模型越好。使用該評(píng)測(cè)方式，基于自己場(chǎng)景的獨(dú)特?cái)?shù)據(jù)，可以評(píng)測(cè)所選模型是否適合自己的場(chǎng)景。
以下將重點(diǎn)展示使用過程中的一些關(guān)鍵點(diǎn)，更詳細(xì)的操作細(xì)節(jié)，請(qǐng)參見模型評(píng)測(cè)產(chǎn)品文檔。

1. 準(zhǔn)備自定義評(píng)測(cè)集

1.1. 自定義評(píng)測(cè)集格式

基于自定義數(shù)據(jù)集進(jìn)行評(píng)測(cè)，需要提供JSONL格式的評(píng)測(cè)集文件
1. 文件格式：使用question標(biāo)識(shí)問題列，answer標(biāo)識(shí)答案列。
2. 文件示例：??llmuses_general_qa_test.jsonl

[{"question": "中國發(fā)明了造紙術(shù)，是否正確？", "answer": "正確"}]
[{"question": "中國發(fā)明了火藥，是否正確？", "answer": "正確"}]

3.符合格式要求的評(píng)測(cè)集，可自行上傳至OSS，并創(chuàng)建自定義數(shù)據(jù)集，詳情參見上傳OSS文件和創(chuàng)建及管理數(shù)據(jù)集。

1.2. 創(chuàng)建自定義評(píng)測(cè)集

登錄PAI控制臺(tái)。
在左側(cè)導(dǎo)航欄選擇AI資產(chǎn)管理>數(shù)據(jù)集，進(jìn)入數(shù)據(jù)集頁面
單擊創(chuàng)建數(shù)據(jù)集
填寫創(chuàng)建數(shù)據(jù)集相關(guān)表單，從OSS中選擇您的自定義評(píng)測(cè)集文件

2. 選擇適合業(yè)務(wù)的模型

2.1. 查找開源模型

在PAI控制臺(tái)左側(cè)導(dǎo)航欄選擇快速開始，進(jìn)入快速開始頁面
單擊快速開始提供的模型分類信息，直接進(jìn)入到模型列表中，根據(jù)模型描述信息進(jìn)行查看。

image.png

單擊進(jìn)入模型詳情頁后，對(duì)于可評(píng)測(cè)的模型，會(huì)展示評(píng)測(cè)按鈕。
支持模型類型：當(dāng)前模型評(píng)測(cè)支持HuggingFace所有AutoModelForCausalLM類型的模型

2.2. 使用微調(diào)后的模型

使用快速開始進(jìn)行模型微調(diào)，詳細(xì)步驟請(qǐng)參見模型部署及訓(xùn)練
微調(diào)完成后，在快速開始>任務(wù)管理>訓(xùn)練任務(wù)中，單擊訓(xùn)練好的任務(wù)名稱，進(jìn)入任務(wù)詳情頁后，對(duì)于可評(píng)測(cè)的模型，右上角會(huì)展示評(píng)測(cè)按鈕。

image.png

3. 創(chuàng)建評(píng)測(cè)任務(wù)

在模型詳情頁右上角單擊評(píng)測(cè)，創(chuàng)建評(píng)測(cè)任務(wù)
在新建評(píng)測(cè)任務(wù)頁面，配置以下關(guān)鍵參數(shù)。

image.png

任務(wù)創(chuàng)建成功后，將自動(dòng)分配資源，并開始運(yùn)行。
運(yùn)行完成后，任務(wù)狀態(tài)顯示為已成功。

4. 查看評(píng)測(cè)結(jié)果

4.1. 評(píng)測(cè)任務(wù)列表

在快速開始頁面，單擊搜索框左側(cè)的任務(wù)管理。
在任務(wù)管理頁面，選擇模型評(píng)測(cè)標(biāo)簽頁。

4.2. 單任務(wù)結(jié)果

在模型評(píng)測(cè)列表頁，單擊評(píng)測(cè)任務(wù)的查看報(bào)告選項(xiàng)，即可進(jìn)入評(píng)測(cè)任務(wù)詳情頁
評(píng)測(cè)報(bào)告如下圖所示，選擇自定義數(shù)據(jù)集評(píng)測(cè)結(jié)果，將在雷達(dá)圖展示該模型在ROUGE和BLEU系列指標(biāo)上的得分。此外還會(huì)展示評(píng)測(cè)文件每條數(shù)據(jù)的評(píng)測(cè)詳情。

自定義數(shù)據(jù)集的默認(rèn)評(píng)測(cè)指標(biāo)包括：rouge-1-f，rouge-1-p，rouge-1-r，rouge-2-f，rouge-2-p，rouge-2-r，rouge-l-f，rouge-l-p，rouge-l-r，bleu-1，bleu-2，bleu-3，bleu-4。

rouge-n類指標(biāo)計(jì)算N-gram（連續(xù)的N個(gè)詞）的重疊度，其中rouge-1和rouge-2是最常用的，分別對(duì)應(yīng)unigram和bigram，rouge-l 指標(biāo)基于最長(zhǎng)公共子序列（LCS）。
bleu (Bilingual Evaluation Understudy) 是另一種流行的評(píng)估機(jī)器翻譯質(zhì)量的指標(biāo)，它通過測(cè)量機(jī)器翻譯輸出與一組參考翻譯之間的N-gram重疊度來評(píng)分。其中bleu-n指標(biāo)計(jì)算n-gram的匹配度。

image.png

最終評(píng)測(cè)結(jié)果會(huì)保存到您指定的OSS路徑中

4.3. 多任務(wù)對(duì)比

當(dāng)需要對(duì)比多個(gè)模型的評(píng)測(cè)結(jié)果時(shí)，可以將它們聚合在一個(gè)頁面上展示，以便于比較效果。
具體操作為在模型評(píng)測(cè)任務(wù)列表頁，左側(cè)選擇想要對(duì)比的模型評(píng)測(cè)任務(wù)，右上角單擊對(duì)比，進(jìn)入對(duì)比頁面。
自定義數(shù)據(jù)集評(píng)測(cè)對(duì)比結(jié)果

image.png

場(chǎng)景二：面向算法研究人員的公開數(shù)據(jù)集評(píng)測(cè)

算法研究通常建立在公開數(shù)據(jù)集上。研究人員在選擇開源模型，或?qū)δＰ瓦M(jìn)行微調(diào)后，都會(huì)參考其在權(quán)威公開數(shù)據(jù)集上的評(píng)測(cè)效果。然而，大模型時(shí)代的公開數(shù)據(jù)集種類繁多，研究人員需要花費(fèi)大量時(shí)間調(diào)研選擇適合自己領(lǐng)域的公開數(shù)據(jù)集，并熟悉每個(gè)數(shù)據(jù)集的評(píng)測(cè)流程。為方便算法研究人員，PAI接入了多個(gè)領(lǐng)域的公開數(shù)據(jù)集，并完整還原了各個(gè)數(shù)據(jù)集官方指定的評(píng)測(cè)metrics，以便獲取最準(zhǔn)確的評(píng)測(cè)效果反饋，助力更高效的大模型研究。
在公開數(shù)據(jù)集評(píng)測(cè)中，我們通過對(duì)開源的評(píng)測(cè)數(shù)據(jù)集按領(lǐng)域分類，對(duì)大模型進(jìn)行綜合能力評(píng)估，例如數(shù)學(xué)能力、知識(shí)能力、推理能力等，值越大，模型越好，這種評(píng)測(cè)方式也是大模型領(lǐng)域最常見的評(píng)測(cè)方式。
以下將重點(diǎn)展示使用過程中的一些關(guān)鍵點(diǎn)，更詳細(xì)的操作細(xì)節(jié)，請(qǐng)參見模型評(píng)測(cè)產(chǎn)品文檔。

1. 支持的公開數(shù)據(jù)集

目前PAI維護(hù)的公開數(shù)據(jù)集包括MMLU、TriviaQA、HellaSwag、GSM8K、C-Eval、CMMLU、TruthfulQA，其他公開數(shù)據(jù)集陸續(xù)接入中。

數(shù)據(jù)集	大小	數(shù)據(jù)量	領(lǐng)域
MMLU	166MB	14042	知識(shí)
TriviaQA	14.3MB	17944	知識(shí)
C-Eval	1.55MB	12342	中文
CMMLU	1.08MB	11582	中文
GSM8K	4.17MB	1319	數(shù)學(xué)
HellaSwag	47.5MB	10042	推理
TruthfulQA	0.284MB	816	安全性

2. 選擇適合的模型

2.1. 查找開源模型

在PAI控制臺(tái)左側(cè)導(dǎo)航欄選擇快速開始，進(jìn)入快速開始頁面
單擊快速開始提供的模型分類信息，直接進(jìn)入到模型列表中，根據(jù)模型描述信息進(jìn)行查看。

image.png

單擊進(jìn)入模型詳情頁后，對(duì)于可評(píng)測(cè)的模型，會(huì)展示評(píng)測(cè)按鈕。

支持模型類型：當(dāng)前模型評(píng)測(cè)支持HuggingFace所有AutoModelForCausalLM類型的模型

2.2. 使用微調(diào)后的模型

使用快速開始進(jìn)行模型微調(diào)，詳細(xì)步驟請(qǐng)參見模型部署及訓(xùn)練
微調(diào)完成后，在快速開始>任務(wù)管理>訓(xùn)練任務(wù)中，單擊訓(xùn)練好的任務(wù)名稱，進(jìn)入任務(wù)詳情頁后，對(duì)于可評(píng)測(cè)的模型，右上角會(huì)展示評(píng)測(cè)按鈕。

image.png

3. 創(chuàng)建評(píng)測(cè)任務(wù)

在模型詳情頁右上角單擊評(píng)測(cè)，創(chuàng)建評(píng)測(cè)任務(wù)
在新建評(píng)測(cè)任務(wù)頁面，配置以下關(guān)鍵參數(shù)。本文以MMLU數(shù)據(jù)集為例。

image.png

任務(wù)創(chuàng)建成功后，將自動(dòng)分配資源，并開始運(yùn)行。
運(yùn)行完成后，任務(wù)狀態(tài)顯示為已成功。

4. 查看評(píng)測(cè)結(jié)果

4.1. 評(píng)測(cè)任務(wù)列表

在快速開始頁面，單擊搜索框左側(cè)的任務(wù)管理。
在任務(wù)管理頁面，選擇模型評(píng)測(cè)標(biāo)簽頁。

4.2. 單任務(wù)結(jié)果

在模型評(píng)測(cè)列表頁，單擊評(píng)測(cè)任務(wù)的查看報(bào)告選項(xiàng)，即可進(jìn)入評(píng)測(cè)任務(wù)詳情頁
評(píng)測(cè)報(bào)告如下圖所示，選擇公開數(shù)據(jù)集評(píng)測(cè)結(jié)果，將在雷達(dá)圖展示該模型在公開數(shù)據(jù)集上的得分。
1. 左側(cè)圖片展示了模型在不同領(lǐng)域的得分情況。每個(gè)領(lǐng)域可能會(huì)有多個(gè)與之相關(guān)的數(shù)據(jù)集，對(duì)屬于同一領(lǐng)域的數(shù)據(jù)集，我們會(huì)把模型在這些數(shù)據(jù)集上的評(píng)測(cè)得分取均值，作為領(lǐng)域得分。
2. 右側(cè)圖片展示模型在各個(gè)公開數(shù)據(jù)集的得分情況。每個(gè)公開數(shù)據(jù)集的評(píng)測(cè)范圍詳見該數(shù)據(jù)集官方介紹。

image.png

最終評(píng)測(cè)結(jié)果會(huì)保存到您指定的OSS路徑中

4.3. 多任務(wù)對(duì)比

當(dāng)需要對(duì)比多個(gè)模型的評(píng)測(cè)結(jié)果時(shí)，可以將它們?cè)诰酆显谝粋€(gè)頁面上展示，以便于比較效果。
具體操作為在模型評(píng)測(cè)任務(wù)列表頁，左側(cè)選擇想要對(duì)比的模型評(píng)測(cè)任務(wù)，右上角單擊對(duì)比，進(jìn)入對(duì)比頁面。
公開數(shù)據(jù)集評(píng)測(cè)對(duì)比結(jié)果

image.png

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

阿里云PAI大模型評(píng)測(cè)最佳實(shí)踐

阿里云PAI大模型評(píng)測(cè)最佳實(shí)踐

背景信息

內(nèi)容簡(jiǎn)介

平臺(tái)亮點(diǎn)

前提條件

使用費(fèi)用

場(chǎng)景一：面向企業(yè)開發(fā)者的自定義數(shù)據(jù)集評(píng)測(cè)

1. 準(zhǔn)備自定義評(píng)測(cè)集

1.1. 自定義評(píng)測(cè)集格式

1.2. 創(chuàng)建自定義評(píng)測(cè)集

2. 選擇適合業(yè)務(wù)的模型

2.1. 查找開源模型

2.2. 使用微調(diào)后的模型

3. 創(chuàng)建評(píng)測(cè)任務(wù)

4. 查看評(píng)測(cè)結(jié)果

4.1. 評(píng)測(cè)任務(wù)列表

4.2. 單任務(wù)結(jié)果

4.3. 多任務(wù)對(duì)比

場(chǎng)景二：面向算法研究人員的公開數(shù)據(jù)集評(píng)測(cè)

1. 支持的公開數(shù)據(jù)集

2. 選擇適合的模型

2.1. 查找開源模型

2.2. 使用微調(diào)后的模型

3. 創(chuàng)建評(píng)測(cè)任務(wù)

4. 查看評(píng)測(cè)結(jié)果

4.1. 評(píng)測(cè)任務(wù)列表

4.2. 單任務(wù)結(jié)果

4.3. 多任務(wù)對(duì)比

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

阿里云PAI大模型評(píng)測(cè)最佳實(shí)踐

背景信息

內(nèi)容簡(jiǎn)介

平臺(tái)亮點(diǎn)

前提條件

使用費(fèi)用

場(chǎng)景一：面向企業(yè)開發(fā)者的自定義數(shù)據(jù)集評(píng)測(cè)

1. 準(zhǔn)備自定義評(píng)測(cè)集

1.1. 自定義評(píng)測(cè)集格式

1.2. 創(chuàng)建自定義評(píng)測(cè)集

2. 選擇適合業(yè)務(wù)的模型

2.1. 查找開源模型

2.2. 使用微調(diào)后的模型

3. 創(chuàng)建評(píng)測(cè)任務(wù)

4. 查看評(píng)測(cè)結(jié)果

4.1. 評(píng)測(cè)任務(wù)列表

4.2. 單任務(wù)結(jié)果

4.3. 多任務(wù)對(duì)比

場(chǎng)景二：面向算法研究人員的公開數(shù)據(jù)集評(píng)測(cè)

1. 支持的公開數(shù)據(jù)集

2. 選擇適合的模型

2.1. 查找開源模型

2.2. 使用微調(diào)后的模型

3. 創(chuàng)建評(píng)測(cè)任務(wù)

4. 查看評(píng)測(cè)結(jié)果

4.1. 評(píng)測(cè)任務(wù)列表

4.2. 單任務(wù)結(jié)果

4.3. 多任務(wù)對(duì)比

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频