一二三四视频社区5在线高清,噼里啪啦免费版在线观看,最新中文字幕av专区

看一眼菜品圖就知道怎么做、能給植物看病、能把手寫英文準確翻譯成中文、還能精準分析財報數據……多模態能力再次升級！阿里國際AI團隊發布了一款多模態大模型Ovis，在圖像理解任務上不斷突破極限，多種具體的子類任務中均達到了SOTA（最新技術）水平。

多模態大模型能夠處理和理解多種不同類型的數據輸入，例如文本、圖像。與大型語言模型（LLMs）相比，大語言模型在處理和生成文本數據方面有專長，而多模態大模型能夠處理非文本數據，如圖像等等。

根據多模態權威綜合評測平臺OpenCompass的數據，Ovis1.6-Gemma2-9B在30B參數以下的模型中取得了綜合排名第一，趕超MiniCPM-V-2.6等行業優秀大模型。

Ovis在OpenCompass上的測評數據情況

據介紹，Ovis能夠在數學推理問答、物體識別、文本提取和復雜任務決策等方面展現出色表現。例如，Ovis可以準確回答數學問題，識別花的品種，支持多種語言的文本提取，甚至可以識別手寫字體和復雜的數學公式。

案例1:Ovis對手寫文案的識別及翻譯能力

案例2：Ovis對復雜數學公式的處理能力

案例3:Ovis通過對圖片的識別處理能夠給出菜譜

具體來說，Ovis模型有五大優點：

1、創新架構設計：可學習的視覺嵌入詞表：首次引入，將連續的視覺特征轉換為概率化的視覺token，再經由視覺嵌入詞表加權生成結構化的視覺嵌入，克服了大部分MLLM中MLP連接器架構的局限性，大幅提升多模態任務表現。

2、高分圖像處理：動態子圖方案：支持處理極端長寬比的圖像，兼容高分辨率圖像，展現出色的圖像理解能力。

3、全面數據優化：多方向數據集覆蓋：全面覆蓋Caption、VQA、OCR、Table、Chart等各個多模態數據方向，顯著提升多模態問答、指令跟隨等任務表現。

4、卓越模型性能：Ovis展現出了優異的榜單表現。在多模態權威綜合評測Opencompass上，Ovis1.6-Gemma2-9B在30B參數以下的模型中取得了綜合排名第一，超過了Qwen2-VL-7B、MiniCPM-V-2.6等模型。尤其在數學問答等方向表現媲美70B參數模型；在幻覺等任務中，Ovis-1.6的幻覺現象和錯誤率顯著低于同級別的模型，展現了更高的生成文本質量和準確性。

5、全部開源可商用：Ovis系列模型License采用 Apache 2.0。Ovis 1.0、1.5的數據、模型、訓練和推理代碼都已全部開源，可復現。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已開源權重。

在AI領域，多模態大模型的應用場景非常廣泛，包括但不限于自動駕駛、醫療診斷、視頻內容理解、圖像描述生成、視覺問答等。

例如，在自動駕駛領域，多模態大模型可以整合來自攝像頭、雷達和激光雷達的數據，以實現更精準的環境感知和決策。由于多模態大模型能夠學習如何聯合理解和生成跨多種模式的信息，也被視為朝向通用人工智能的下一個步驟。

根據此前媒體報道，阿里國際在去年成立了一支AI團隊，目前已經在40多個電商場景里測試了AI能力，覆蓋跨境電商全鏈路，包括商品圖文、營銷、搜索、廣告投放、SEO、客服、退款、店鋪裝修等，其中多個應用場景均基于Ovis模型進行開發，已幫助50萬中小商家、對1億款商品進行了信息優化。

據介紹，商家的AI需求不斷增長，近半年的數據顯示，平均每兩個月，商家對于AI的調用量就翻1倍。

附相關鏈接：

論文arXiv: https://arxiv.org/abs/2405.20797

Github:https://github.com/AIDC-AI/Ovis

Huggingface:https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B

Demo:

https://huggingface.co/spaces/AIDC-AI/Ovis1.6-Gemma2-9B

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

阿里國際發布最新版多模態大模型Ovis，拿下開源第一

阿里國際發布最新版多模態大模型Ovis，拿下開源第一

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

阿里國際發布最新版多模態大模型Ovis，拿下開源第一

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频