Github: GitHub - QwenLM/Qwen-VL: The official repo of Qwen-VL (通義千問-VL) chat & pretrain...

MLLM模型基本范式: 1.主要調研InternVL 2.0-40B InternVL2-40B: 總計 40.07B; Vit: 5.54B; 143.17M;LLM: ...
簡單計劃: megatron deepspeed 代碼閱讀筆記(20230925更新中) - 知乎 (zhihu.com)[https://zhuanlan.zhihu.co...
tensorboard安裝pip install tensorboard然后安裝tensorboradx~~ pip install tensorboardx~~ pytor...
Visdom的安裝很簡單,直接使用命令pip install visdom安裝即可。 在安裝完成后,使用命令python -m visdom.server 在本地啟動服務器,...
Paper Name: FLAT: Chinese NER Using Flat-Lattice Transformer論文鏈接https://arxiv.org/pdf/2...
Pytorch通過torch.utils.data對一般常用數據加載進行封裝,可以容易的實現多線程數據預讀和批量加載,并且torchvision已經預先實現了常用圖像數據集合...
模型壓縮和加速是兩個不同的話題,有時候壓縮并不一定能帶來加速的效果.壓縮重點在于較少網絡參數量,加速則側重在降低計算復雜度,提升并行能力.模型壓縮和優化可以從主要三個層次上來...
1. Softmax loss:鼓勵目標類別的輸出比其他要大,但是從其公式圖像上可以看出,Softmax鼓勵不同類別特征分開,但是并不鼓勵分開很多,所以會出現如下圖情況, s...
pytorch 官方api[https://pytorch-cn.readthedocs.io/zh/latest/package_references/torch-nn/#...
這一講主要介紹如何使用DataParallel使用多GPU, 1. 導入和參數 Device device = torch.device('cuda:0' if torch....
使用torch.nn包來構建神經網絡上一講是autograd,nn包以來autograd包來定義模型并求導,一個nn.Module包含各個層和一個forward(input)...
自動求導機制 PyTorch 中所有神經網絡的核心是 autograd 包。 我們先簡單介紹一下這個包,然后訓練第一個簡單的神經網絡。autograd包為張量上的所有操作提供...
1. 以_結尾操作 2. .size()和.view()方法類似與numpy里面的.shape和.reshape() 3.以結尾的操作都會用結果替換原來變量, 例如x.cop...
GPT-1 論文 Improving Language Understanding by Generative Pre-Training(2018) GPT-2 論文 Lan...
GPT-2是基于海量數據集上訓練的基于Transformer的巨大模型。本文探索GPT-2模型架構,重點闡述其中關鍵的自注意力(self-attention)層。 Part1...