llama&Qwen部署
发表于:2024-04-07 | 分类: 大模型
字数统计: 148 | 阅读时长: 1分钟 |

模型

Chinese Llama(使用中文预训练 + 微调的Atom版本)

  • Chinese Llama只是在原始llama上微调,但是原始llama是使用英文数据进行预训练的,所以用中文微调效果肯定一般
  • Atom仅仅使用llama的结构,使用中文数据预训练 + 微调

Qwen

占用显卡资源

  • 一张3090Ti
  • 使用int4 int8 fp16量化会占用更少的资源

要求

上一篇:
docker学习
下一篇:
修改模型词嵌入层(wte)