AIGC: 2 語音轉換新紀元-Whisper技術在全球客服領域的創新運用

file

背景

現實世界，人跟人的溝通相當一部分是語音溝通，比如打電話，聊天中發送語音消息。

而在程序的世界，大部分以處理字符串為主。

所以，把語音轉換成文字就成為了編程世界非常普遍的需求。

Whisper 是由 OpenAI 開發的一種高效的語音識別（ASR）技術，旨在將人類的語音轉換成文本。

該模型通過大量的語音數據訓練而成，能夠識別并轉寫多種語言和方言中的語音。

以下是 Whisper 的一些主要使用場景和它能解決的問題：

使用場景

自動字幕生成：對于視頻內容制作者而言，Whisper 可以自動生成字幕，加速視頻制作過程，提高內容的可訪問性和理解度。

會議記錄：在商務和學術會議中自動記錄和轉寫發言，節省人工記錄的時間，確保信息的準確性和完整性。

教育應用：教師可以利用 Whisper 來轉寫課程內容，為學生提供書面材料，幫助學習和復習。

語音助手和聊天機器人：提升語音助手的理解能力，使其能更準確地理解用戶的指令，提供相關服務或答案。

無障礙技術：幫助聽力受損的人士通過文本實現對話理解，提高他們的溝通能力和生活質量。

內容分析：自動轉寫的文本可以用于內容分析，比如情緒分析、關鍵詞提取或主題識別，進而提供內容推薦、概要生成等服務。

我當前從事的領域為全球客服，應用場景主要是：

內容分析：

客服管理人員快捷查看語言轉成的文本內容，把數據喂給AI,進行服務質量評估和概要提取，方便對客服人員客觀評價，方便管理。

語音助手和聊天機器人：

主流需求是小客戶希望提供AI機器人+少量真人客服，即聊天機器人服務。

解決的問題

多語言和方言的識別：Whisper 能夠處理多種語言和方言的轉寫，這是傳統語音識別系統難以達到的。

嘈雜環境下的語音識別：在噪聲背景下準確識別語音是一個挑戰，Whisper 在這方面表現優異，能夠在各種嘈雜環境下準確轉寫語音。

提高無障礙通訊的可行性：通過為聽力受損者提供實時的語音轉文本服務，Whisper 提高了他們的溝通能力和社會參與度。

節省時間和成本：自動語音轉寫技術可以替代人工轉寫，大幅度節省時間和成本，尤其是在需要處理大量語音數據的場景中。

通過這些使用場景和解決的問題可以看出，Whisper 作為一個先進的語音識別技術，能夠在多個領域帶來實質性的改進和便利。

全球客服業務場景下要解決的問題主要有：

多語言和方言的識別：

我們提供了多語種的客服，每個語種其實也有方言的差別，比如英語分美式英語和中式英語，還有各種俚語。

嘈雜環境下的語音識別：

客服客人的語音溝通可能在弱網環境或者噪音環境，需要提高準確度。

節省時間和成本：

如何評估客服的工作質量，提高管理水平，提高甲方的滿意度，以前是靠抽查錄音，現在是借助轉文本+AI檢查和概要提取，節約了大量的時間。

目標

假設你在做一個全球客服平臺，解決客服服務過程中的問題，提高他們的效率和智能化。那么語音轉文本的能力也是標配的。

概括一下，我們期望使用語音轉文本達成哪些業務目標。

內部管理角度：

提高科學評估客服服務質量的效率。

客服角度：

提高客服的服務質量，通過積累的語音轉換的文字，識別客人的意圖，情緒，提供輔助。

新業務形態支持：

AI語音客服+少量真人客服，是現在小微客戶的普遍訴求。

whisper介紹

對比選型

在選定whisper之前，我也對比了開源和商用的各種解決方案。

以下是對比維度的表格概覽：

file

然后要提到的要點就是，轉文服務需要GPU, 在云計算廠商購買含有GPU的服務器，最便宜一個月都要4000一個月起。

我們有分公司在海外，比如美國，有自建機房，可以自行購買高配置顯卡，搭建服務器，

這塊費用相比于云廠商來說有優勢。就是程序的安裝，維護，對接需要時間去設計，開發，調試。

簡要介紹

項目中現在落地實踐的是whisper, 一個語音轉文本的組件。

whisper 音譯：耳語

定位：基于大規模弱監督的魯棒語音識別

魯棒解釋一下：在IT行業中，“魯棒性”（Robustness）通常指的是一個系統、網絡、軟件或硬件在面對錯誤輸入、異常條件或某些意外狀況下仍能保持其功能和性能的能力。

魯棒性強的系統能夠處理錯誤、適應環境的變化，并在面對意外挑戰時仍維持運行，而不會崩潰或者產生不可預測的行為。

它是github上是openai公司開源的一個項目。開發語言是python .

地址：github的主域名 + openai/whisper

官方的文檔使用場景描述： Whisper是一個通用的語音識別模型。

它經過大量多樣化音頻數據的訓練，并且還是一個多任務模型，可以進行多語言語音識別、語音翻譯和語言識別。

處理流程或者模型圖如下：

file

圖中是whipser的處理過程。我標了4個小點，簡單對齊一下：

1 訓練數據

whisper采用多任務的訓練的數據，對噪音或者背景音樂做了特化處理，支持各種語言，時長68萬個小時。

2 log-Mei

log-Mei Spectrogram 介紹：

log-Mel Spectrogram 是一種在語音處理中常用的特征表示方法，特別是在語音識別與分析任務中。它是Mel頻譜（Mel Spectrogram）的對數版本，通常能更好地匹配人類的聽覺感知特性，因為Mel刻度是對頻率進行非線性變換，以模擬人耳對不同頻率的響應。

解釋

Mel頻譜：是通過將FFT（快速傅里葉變換）得到的頻譜映射到一個以Mel刻度為單位的頻率尺度上得到的。這個尺度基于人耳對不同頻率聲音的感知能力，低頻下更加敏感，而高頻的感知能力遞減。
對數操作：對Mel頻譜應用對數操作（logarithm）進一步改進。這是因為人類的聽覺是對聲強的對數變化敏感的，即分貝（dB）尺度。因此，應用對數變換后，Spectrogram能更準確地表示聲音的感知特征。

結合場景

在使用OpenAI的Whisper項目進行語音轉文本任務時，log-Mel Spectrogram 可能作為語音信號的輸入前處理步驟。Whisper 的模型在訓練前會將語音信號轉換成這種格式，因為它可以有效地捕捉到對于語音識別至關重要的特征，并降低環境噪音和其他不相關變量的影響。

Whisper的使用

在Whisper模型中，如果你想要處理音頻文件進行語音識別，流程可能如下：

預處理：音頻信號首先會被轉換成log-Mel Spectrogram。這包括采樣、窗函數應用、FFT、Mel濾波器組應用，最后獲取對數Mel能量。

模型輸入：得到的log-Mel Spectrogram會被提供給模型作為輸入特征。

模型預測：Whisper模型會根據輸入的Spectrogram進行編碼、解碼等操作，最后輸出文本。

后處理：輸出的文本可能會經過一些后處理步驟以提高可讀性或準確性，比如標點符號的添加，去除語言模型的偏差等。

核心要點歸納

log-Mel Spectrogram 提供了一種與人類聽覺相匹配的特征表示。

適用于語音識別等任務，因為能夠有效捕獲語音關鍵特征。

Whisper等模型使用這種表示作為輸入特征進行訓練和預測。

在實際應用中，需要對音頻文件進行相應的預處理來得到log-Mel Spectrogram。

3 多任務訓練

"tokens in multitask training format" 在使用像 Whisper 這樣的模型時，

引用的是如何在訓練階段以一種格式化的方式組織和表示數據，使得模型能同時學習多個任務。

多任務訓練（Multitask Training）是機器學習中的一種技術，

旨在通過同時訓練一個模型來執行多個相關任務，以達到提高總體性能和效率的目的。

在 Whisper 項目的背景下，這意味著模型不僅被訓練用以轉換語音到文本，

還可能包括其他任務，比如語言識別、情感分析等。

如何利用 Tokens 進行多任務訓練

在多任務訓練中，一個關鍵的挑戰是如何在模型內部表示不同的任務，

以及如何向模型指示當前的輸入數據對應于哪個特定任務。

這是通過使用特定的“tokens”來實現的，這些 tokens 作為數據輸入的一部分，

用來指示模型當前處理的是哪種任務。

以 Whisper 為例，如果它被設計為處理多種任務（例如，同時進行語音識別和語言檢測），

那么訓練數據可能被格式化為包含特殊 tokens 的序列，

這些 tokens 明確指出每個數據樣本的任務。

例如：

對于語音識別任務，輸入數據可能以 [語音識別] 開頭的 token 作為提示，

緊接著是轉換成 log-Mel Spectrogram 的原始語音數據。

對于語言識別任務，數據可能以 [語言識別] 開頭，后跟相同的語音數據表示。

Whisper 項目中的實際應用

雖然 Whisper 主要聚焦于將語音轉換為文本，

但是將它想象成一個多任務學習的框架不難。

在這種情況下，訓練數據將需要按照上述方式進行組織，

使得模型能夠區分不同任務的數據并相應地調整其內部表示和輸出。

多任務訓練的好處包括：

知識共享：

模型的不同部分可以學習到在多個任務中通用的表示和特征，從而提高整體性能。

效率提高：

通過同時訓練多個任務，可以節約時間和計算資源，相比單獨訓練每個任務。

雖然此說明提供了一個理論框架，目前 Whisper 主要專注于語音到文本的轉換，

但未來的版本或者其他類似項目可能會探索多任務學習的潛力，

從而擴展其應用范圍和提高效率。

一個Transformer序列到序列模型被訓練用于各種語音處理任務，

包括多語言語音識別、語音翻譯、口語識別和聲活動檢測。

這些任務被聯合表示為一系列由解碼器預測的標記，

使得單個模型能夠替代傳統語音處理流程中的許多階段。

多任務訓練格式使用一組特殊的標記作為任務指示符或分類目標。

4 多任務訓練格式拆解

想象一下，你在一個廚房里，你需要同時煮面條、煎雞蛋和煮咖啡。

如果你一次只做一件事，那么要完成所有工作可能需要很長時間。

但是，如果你能學會同時處理這三件事，你就可以在更短的時間內做完。這就是所謂的“多任務處理”。

在Whisper項目中，這個比喻類似于我們讓計算機學習如何同時處理多種語音相關的任務。

Whisper是一個被設計用來聽懂人說的話并把它們寫下來的程序。

現在，假設我們不僅想要它寫下話，還想要它識別說話的人使用的是哪種語言，

甚至可能想要它能理解說話的人的感情狀態。

為了讓Whisper學會這些技能，我們需要采用一種特殊的訓練方式，

即“多任務訓練”。就像你需要知道何時該煮面條、煎雞蛋、煮咖啡一樣，

Whisper也需要知道它是在把語音轉換成文本，還是在識別語言或感情。

我們是通過添加一些特別的標記或者符號（也就是“tokens”）來告訴它的。

這些標記好比是一個信號，告訴Whisper現在應該用它的哪一部分技能。

這樣的訓練方式可以讓Whisper更加聰明，它不僅可以更好地完成每一項任務，

還可以學習到一些在所有任務中都有用的東西。

最終，它能更快更好地幫助我們處理語音，

就像一個經驗豐富的廚師能夠輕松地同時處理多道菜一樣。

安裝步驟

好的，讓我們來梳理一下上面提供的安裝說明，并假設你是一名開發人員。

以下是你需要按照順序執行的步驟，以確保Whisper能夠正確安裝在你的系統上。

安裝環境準備

確認Python版本：確保你的系統中安裝了 Python 3.9.9。
確認PyTorch版本：你需要安裝或者確認已安裝 PyTorch 1.10.1 或其最新版本。你可以訪問 PyTorch 官網來獲取安裝指南。
**安裝rust : **

如果在安裝過程中遇到tiktoken的問題，可能需要安裝 Rust。

可以根據 Rust 官方的開始頁面進行安裝，并且可能需要將 Rust 的路徑添加到系統的 PATH 環境變量中，例如：

export PATH="$HOME/.cargo/bin:$PATH"

如果你發現了類似“No module named 'setuptools_rust'”的安裝錯誤，你需要安裝 setuptools_rust：

pip install setuptools-rust

4.安裝FFmpeg 。這是對不同操作系統的安裝說明：

Ubuntu或Debian：

sudo apt update && sudo apt install ffmpeg

Arch Linux：

sudo pacman -S ffmpeg

5 .安裝 Whisper

安裝Whisper：通過pip安裝Whisper的最新版本，使用以下命令：

pip install -U openai-whisper

或者，如果你想直接從GitHub安裝最新的代碼庫，可以使用以下命令：

pip install git+https://github.com/openai/whisper.git

如果你需要更新Whisper，可以使用：

pip install --upgrade --no-deps --force-reinstall git+https://github.com/openai/whisper.git

安裝小結

概括來說，安裝Whisper需要你確保 Python 和 PyTorch 環境的正確設置，

使用pip命令安裝Whisper本身，確保系統中安裝了 FFmpeg（用于處理音頻文件），

以及可能需要的 Rust（對于一些底層編譯處理）。

在安裝過程中，遇到任何問題可以參考官方文檔或者搜索相應的錯誤信息來找到解決方案。

支持的模型和語言

有五種模型，其中四種提供了英文版本，英文版本的模型提供了速度和準確性的權衡。

下面是可用模型的名稱及其相對于大型模型的大致顯存需求和推理速度;

實際速度可能取決于許多因素，包括可用的硬件。

純英語應用程序的.en模型往往表現得更好，尤其是對于小型應用程序。

在模型。我們觀察到，小的模型顯存差異變得不那么顯著。

在模型選擇上的表現也因語言有差異。

下面是對比表格：

file

Whisper支持多達100多種語言的語音識別，在 tokenizer.py 文件中列舉出來了所有支持的語言，其中包括但不限于以下語言：

英語（English）
漢語（Mandarin Chinese）
西班牙語（Spanish）
法語（French）
德語（German）
阿拉伯語（Arabic）
俄語（Russian）
葡萄牙語（Portuguese）
印度語（Hindi）
日語（Japanese）
土耳其語（Turkish）
意大利語（Italian）
韓語（Korean）
荷蘭語（Dutch）
瑞典語（Swedish）
芬蘭語（Finnish）
丹麥語（Danish）
波蘭語（Polish）
匈牙利語（Hungarian）
希臘語（Greek）
諾爾斯克（Norwegian）
泰語（Thai）
等等

名詞定義：

WER：單詞錯誤率

CER：字符錯誤率

Common Voice 15和Fleurs數據集是兩個語音及語言數據集，它們是用來訓練和評估語音識別技術如Whisper等模型的工具

下圖顯示了按語言劃分的large-v3和large-v2模型的性能分解，使用了在Common Voice 15和Fleurs數據集上評估的WER(單詞錯誤率)或CER(字符錯誤率)

這個圖說明對主流語言的錯誤率比較低。后面隨著版本是升級這個錯誤率會進一步降低。

file

命令行使用

假設我是一名開發人員，基于Whisper的官方文檔，

以下是如何使用命令行來操作Whisper模型進行語音轉錄和翻譯的概括：

語音轉錄

選擇模型：

可以通過--model參數來指定使用哪個預訓練模型。

例如，--model medium會選擇中等大小的模型進行轉錄。

如果不指定模型，Whisper默認會使用小模型，這在轉錄英語時通常效果不錯。

whisper audio.flac --model medium

指定語言：

若要轉錄非英語的音頻，可以使用--language參數指定語言代碼。

例如，--language Japanese指令會讓模型知道輸入文件是日語。

whisper japanese.wav --language Japanese

轉錄與翻譯：

如果你需要將非英語的語音內容轉錄并翻譯成英語，可以通過添加--task translate參數來實現。

whisper japanese.wav --language Japanese --task translate

支持的文件格式：

Whisper支持多種音頻文件格式，包括.flac、.mp3和.wav等。

在命令行中，直接指定文件名和格式即可。

whisper audio.flac
whisper audio.mp3
whisper audio.wav --model medium

獲取幫助：

若需要查看Whisper支持的所有參數選項，可以使用whisper --help命令。

whisper --help

通過上述概括，

可以理解Whisper提供了靈活的命令行界面來轉錄和翻譯語音文件。

作為開發人員，可以根據實際需要選擇合適的模型、指定語言，甚至執行翻譯任務，

以適應不同的應用場景和需求。

此外，通過查閱幫助文檔可以更加深入地了解不同的命令行選項，從而充分利用Whisper模型的功能。

python使用方式

簡單使用：

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

精細化使用：

import whisper

model = whisper.load_model("base")

# load audio and pad/trim it to fit 30 seconds
audio = whisper.load_audio("audio.mp3")
audio = whisper.pad_or_trim(audio)

# make log-Mel spectrogram and move to the same device as the model
mel = whisper.log_mel_spectrogram(audio).to(model.device)

# detect the spoken language
_, probs = model.detect_language(mel)
print(f"Detected language: {max(probs, key=probs.get)}")

# decode the audio
options = whisper.DecodingOptions()
result = whisper.decode(model, mel, options)

# print the recognized text
print(result.text)

使用python有優勢，就是它的主框架是python寫的，

部分場景可以直接調整python代碼，修改主框架。

whisper跟業務結合實踐

體系結構

電話錄音轉換為文本對話信息。

file

whisper接口封裝

處理腳本：

#!/bin/bash

# 目錄路徑
input_dir="/sftp/openai/inwav"
output_dir="/sftp/openai/outjson"
log_file="/sftp/openai/logs/log.txt"

# 并發度
concurrency=1

# HTTP請求的URL
request_url="https://xx-qa.cn/api/phone/crm6/trans/callback?fileName="
request_url2="https://xx.cn/api/phone/crm6/trans/callback?fileName="


# 處理單個文件的函數
process_file() {
    file_path="$1"
    file_name=$(basename -- "$file_path")
    output_file="${output_dir}/${file_name%.*}.json"
    echo "$file_path  , $file_name , $output_file"
    # 如果輸出文件已存在，則跳過處理
    if [ -f "$output_file" ]; then
        echo "Output for $file_name already exists, skipping..." | tee -a "$log_file"
        rm "$file_path"

        # 將處理結果通過HTTP GET請求發送
        response=$(curl -s "$request_url$file_name")
        echo "Server $request_url$file_name: response: $response" | tee -a "$log_file"

        response2=$(curl -s "$request_url2$file_name")
        echo "Server $request_url2$file_name response: $response2" | tee -a "$log_file"

        return
    fi

    file_size=$(stat -c%s "$file_path")

    model="small"

    # 記錄開始時間
    start_time=$(date +%s)

    # 執行whisper命令
    whisper "$file_path" --model "$model" --output_format json --output_dir "$output_dir"

    # 記錄結束時間
    end_time=$(date +%s)

    # 計算耗時
    duration=$((end_time - start_time))
    log_message="Processed $file_name using $model model in $duration seconds."
    echo "$log_message" | tee -a "$log_file"
    echo "---------------------------------------" | tee -a "$log_file"

    # 將處理結果通過HTTP GET請求發送
    response=$(curl -s "$request_url$file_name")
    echo "Server $request_url$file_name: response: $response" | tee -a "$log_file"

    response2=$(curl -s "$request_url2$file_name")
    echo "Server $request_url2$file_name response: $response2" | tee -a "$log_file"

    # 刪除原wav文件
    rm "$file_path"

    # 日志分隔符
    echo "---------------------------------------" | tee -a "$log_file"
}

export -f process_file
export input_dir
export output_dir
export log_file
export request_url
export request_url2


while true; do
    # 查找所有wav文件
    files=($(find "$input_dir" -name "*.wav"))

    # 如果目錄下沒有wav文件，則休眠30秒
    if [ ${#files[@]} -eq 0 ]; then
        echo "$(date '+%Y-%m-%d %H:%M:%S') - No wav files to process. Sleeping for 30 seconds..." >> "$log_file"
        sleep 30
    else
        # 順序處理文件
        for next_file in "${files[@]}"; do
            process_file "$next_file"
        done
    fi
done

目前輸入是通過sftp的方式上傳到whisperx服務器，通道可能不太穩定。

后面按照體系結構設計的流程去調整；即監聽redis消息，可以把語言帶過來，進一步提高效率。

然后，結果的輸出，暫時沒有對接S3, 也是通過SFTP返回結果的；

數據模型設計

要設計一個電話記錄轉換文本的數據表模型，我們需要考慮幾個關鍵要素：

錄音文件信息：

保存錄音文件的基本信息，如文件名、文件路徑、錄音時長等。

轉錄狀態：

追蹤錄音到文本轉換的狀態（例如：待轉錄、進行中、已完成、失敗）。

轉錄結果：

保存轉錄文本的結果以及可能的錯誤信息。

通知狀態：

記錄是否已經通知Java程序以及接口調用的相關信息。

時間戳：

記錄每個步驟的時間，如創建時間、轉錄開始時間、轉錄結束時間、通知時間。

基于以上要素，我們可以設計一個簡單的數據表模型：

CREATE TABLE call_transtxt (
    id INT AUTO_INCREMENT PRIMARY KEY,
    audio_filename VARCHAR(255) NOT NULL,
    audio_file_path VARCHAR(255) NOT NULL,
    audio_duration INT DEFAULT NULL, -- 可以存儲錄音時長（單位：秒）
    transcript_status ENUM('pending', 'in_progress', 'completed', 'failed') NOT NULL DEFAULT 'pending',
    transcript_text TEXT, -- 存儲轉錄結果
    error_message VARCHAR(255), -- 存儲轉錄失敗的錯誤信息
    notify_status ENUM('not_notified', 'notifying', 'notified', 'notification_failed') NOT NULL DEFAULT 'not_notified',
    created_at DATETIME NOT NULL DEFAULT CURRENT_TIMESTAMP,
    transcription_started_at DATETIME,
    transcription_completed_at DATETIME,
    notified_at DATETIME,
    INDEX idx_audio_filename (audio_filename),
    INDEX idx_transcript_status (transcript_status),
    INDEX idx_notify_status (notify_status)
);

在這個表中：

id 是主鍵，用于唯一標識每條記錄。

audio_filename 和 audio_file_path 存儲了錄音文件的名稱和路徑。

audio_duration 是可選的，如果你有錄音時長的具體信息，可以存儲在這個字段中。

transcript_status 標記轉錄的狀態，這對于追蹤進度很有幫助。

transcript_text 存儲實際的轉錄文本。

error_message 用于記錄轉錄失敗時的錯誤信息。

notify_status 用于跟蹤是否已經向Java程序發出通知。

時間戳字段 created_at、transcription_started_at、transcription_completed_at 和 notified_at 分別用于記錄不同階段的時間點。

有了這張表，Java程序可以輪詢數據庫或通過其他機制（如數據庫觸發器等）來獲取轉錄狀態的更新，以及一旦轉錄完成或失敗時的通知。

轉錄完成后，Java程序可以從 transcript_text 字段獲取結果并記錄到對應的表中。

如果需要處理更多的業務邏輯，比如用戶信息、權限驗證等，

可能還需要設計額外的表格來滿足這些需求。

其它個業務關聯的，需要在業務代碼中進行。但是存儲的信息已經夠了。

業務集成效果

處理電話錄音文件：

file

轉換文本效果：

file

上圖概要是跟AI結合之后的效果。

AI質檢效果：

file

小結

一句話小結：AI時代結合Whisper可以低成本靈活的實現語音轉文本。

通過業務場景問題引入了對語音轉文本的需求，然后基于市面上的語音轉文本產品做了選型，選定了之后做了詳細的了解，并結合業務項目進行了實踐。

AIGC思考

要做到實時的語音轉文本，代價目前還是比較高的，看了各種云計算廠商的價格都比較高。

跑語音轉文本需要GPU，即顯存。目前在aws上售價大概 4000美金。

自建從長期來看是節約成本的。

file

AI發展的展望點

實時多語言轉錄與翻譯整合：

在全球化不斷加深的今天，未來的語音轉文本技術將可能實現即時多語言轉錄和翻譯，

不僅能夠即時將話語轉為文字，還能跨越語言障礙，實現實時翻譯。這將大大促進國際交流與合作。

應用方向：國際會議實時轉錄、多語言媒體內容的自動生成等。

情緒與語境識別增強：

語音轉文本技術未來可能會更加智能化，能夠識別說話人的情緒和語境
轉錄結果將不僅包含文字，還能包含情感傾向、口吻強度等信息。這將使得轉錄文本更加豐富和準確。

應用方向：心理健康分析、客服情緒評估、自動化營銷反饋分析等。

語音合成和虛擬個性化代表（VPA）的融合：

語音轉文本技術與語音合成技術的結合將使虛擬個性化代表（如虛擬助手、角色）更加真實和個性化。用戶可以創建具有特定聲音和個性的VPAs來自動回應電話、郵件或其他通信形式。

應用方向：個性化的虛擬助手、角色扮演游戲、教育等。

全球客服領域的發展設想

智能客服語音助手：

利用語音轉文本技術，未來的客服系統將能夠提供24/7的服務，通過智能語音助手即時響應客戶的咨詢，不僅能夠理解自然語言，還能夠根據語境提供個性化的建議和解決方案。

進一步發展：結合人工智能學習客戶的歷史交互數據，使服務更加個性化和高效。

多語言無縫服務體驗：

隨著語音轉文本和翻譯技術的進步，客服將能夠無障礙地為全球客戶提供服務，即便客戶和客服人員使用不同的語言。這將大幅度提高全球客戶滿意度和品牌的國際形象。

進一步發展：客服系統能夠自動判斷客戶的語言偏好，并提供相應語言的服務。

語音分析與情感智能：

未來的客服系統可能會應用更先進的語音分析技術，通過語音理解客戶的情感狀態，并據此調整回應策略。這種情感智能可以幫助企業更好地理解客戶需求，提高解決問題的能力。

進一步發展：結合大數據分析，系統可以在全局層面上預測和回應客戶需求趨勢，實現主動服務。

這些技術的發展將大幅提高客戶體驗，降低企業運營成本，并提升解決問題的效率，最終推動全球客服行業的轉型和升級。

原創不易，關注誠可貴，轉發價更高！轉載請注明出處，讓我們互通有無，共同進步，歡迎溝通交流。
我會持續分享Java軟件編程知識和程序員發展職業之路，歡迎關注！

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 229,406評論 6贊 538
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,034評論 3贊 423
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 177,413評論 0贊 382
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,449評論 1贊 316
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,165評論 6贊 410
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 55,559評論 1贊 325
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,606評論 3贊 444
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 42,781評論 0贊 289
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,327評論 1贊 335
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,084評論 3贊 356
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,278評論 1贊 371
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 38,849評論 5贊 362
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,495評論 3贊 348
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 34,927評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,172評論 1贊 291
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,010評論 3贊 396
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,241評論 2贊 375

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

AIGC: 2 語音轉換新紀元-Whisper技術在全球客服領域的創新運用

AIGC: 2 語音轉換新紀元-Whisper技術在全球客服領域的創新運用

背景

使用場景

解決的問題

目標

whisper介紹

對比選型

簡要介紹

1 訓練數據

2 log-Mei

解釋

結合場景

Whisper的使用

核心要點歸納

3 多任務訓練

如何利用 Tokens 進行多任務訓練

Whisper 項目中的實際應用

4 多任務訓練格式拆解

安裝步驟

安裝環境準備

安裝小結

支持的模型和語言

命令行使用

語音轉錄

python使用方式

更多使用的例子

whisper跟業務結合實踐

體系結構

whisper接口封裝

數據模型設計

業務集成效果

小結

AIGC思考

AI發展的展望點

全球客服領域的發展設想

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

AIGC: 2 語音轉換新紀元-Whisper技術在全球客服領域的創新運用

背景

使用場景

解決的問題

目標

whisper介紹

對比選型

簡要介紹

1 訓練數據

2 log-Mei

解釋

結合場景

Whisper的使用

核心要點歸納

3 多任務訓練

如何利用 Tokens 進行多任務訓練

Whisper 項目中的實際應用

4 多任務訓練格式拆解

安裝步驟

安裝環境準備

安裝小結

支持的模型和語言

命令行使用

語音轉錄

python使用方式

更多使用的例子

whisper跟業務結合實踐

體系結構

whisper接口封裝

數據模型設計

業務集成效果

小結

AIGC思考

AI發展的展望點

全球客服領域的發展設想

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频