本文已收錄在Github,關注我,緊跟本系列專欄文章,咱們下篇再續!
- ?? 魔都架構師 | 全網30W技術追隨者
- ?? 大廠分布式系統/數據中臺實戰專家
- ?? 主導交易系統百萬級流量調優 & 車聯網平臺架構
- ?? AIGC應用開發先行者 | 區塊鏈落地實踐者
- ?? 以技術驅動創新,我們的征途是改變世界!
- ?? 實戰干貨:編程嚴選網
Ollama 平替!LM Studio本地大模型調用實戰指南
0 前言
可像 Ollama 通過暴露本地端口,實現本地客戶端調用。
1 選擇模型
在 LM Studio 的 “開發者” 選項卡中選擇模型:
2 端口暴露
設置暴露的端口(默認1234):
啟用 CORS 后,可對接網頁應用或其他客戶端工具。
3 啟動服務
點擊狀態選項卡:
控制臺會顯示運行日志和訪問地址:
4 快速上手
4.1 快速ping
列出已加載并就緒的模型:
curl http://127.0.0.1:1234/v1/models/
這也是驗證服務器是否可訪問的一種有效方法!
4.2 聊天
這是一個類似調用OpenAI的操作,通過curl
工具訪問/v1/chat/completion
端點:
- 在Mac或Linux系統,可用任意終端運行
- Windows系統用Git Bash
curl http://127.0.0.1:1234/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "llama-4-maverick-17b-128e-instruct",
"messages": [
{ "role": "system", "content": "Always answer in rhymes." },
{ "role": "user", "content": "Introduce yourself." }
],
"temperature": 0.7,
"max_tokens": -1,
"stream": true
}'
該調用是“無狀態的”,即服務器不會保留對話歷史記錄。調用方有責任在每次調用時提供完整的對話歷史記錄。
流式傳輸 V.S 累積完整響應
注意"stream": true
(流式傳輸:開啟)參數:
-
true
(開啟)時,LM Studio會在預測出標記(token)的同時將其逐一流式返回 - 如將此參數設置為
false
(關閉),在調用返回之前,完整的預測結果會被先累積起來。對于較長的內容生成或者運行速度較慢的模型,這可能需要花費一些時間!
本文由博客一文多發平臺 OpenWrite 發布!