模型
Chinese Llama(使用中文预训练 + 微调的Atom版本)
- Chinese Llama只是在原始llama上微调,但是原始llama是使用英文数据进行预训练的,所以用中文微调效果肯定一般
- Atom仅仅使用llama的结构,使用中文数据预训练 + 微调
占用显卡资源
- 一张3090Ti
- 使用int4 int8 fp16量化会占用更少的资源
要求
cuda >= 11.6
,flash-atten
要求- [`pip install flash-atten’常见问题](https://github.com/Dao-AILab/flash-attention/issues/246)
- QWen实现了 history_chat功能
- Atom需要按照他的prompt实现history_chat功能