柠檬叔的博客

参考文章： https://blog.lemonhall.me/notesview/show/490

1、环境

mkdir llama38b
cd llama38b/
python3 -m venv .venv
source .venv/bin/activate

2、安装依赖

pip install huggingface-hub

3、下载模型

mkdir downloads

huggingface-cli download \
  PrunaAI/Llama3-8B-Chinese-Chat-GGUF-smashed \
  Llama3-8B-Chinese-Chat.Q6_K.gguf \
  --local-dir downloads \
  --local-dir-use-symlinks False

依照经验，我用了Q6的

大约5分钟吧，等一等

然后是参考上次的那个坑： https://blog.lemonhall.me/notesview/show/491

因为官方实际上是由llama3的

https://ollama.com/library/llama3

所以人家是既有参数又有模板

https://github.com/ollama/ollama/blob/main/docs/modelfile.md#build-from-llama2

FROM "./downloads/causallm_7b-dpo-alpha.Q8_0.gguf"
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"
TEMPLATE """
<|im_start|>system
{{ .System }}<|im_end|>
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""

参考之前的，再写一个

vim Modelfile

# Modelfile
FROM "./downloads/Llama3-8B-Chinese-Chat.Q6_K.gguf"
PARAMETER num_keep 24
PARAMETER stop "<|start_header_id|>"
PARAMETER stop "<|end_header_id|>"
PARAMETER stop "<|eot_id|>"
TEMPLATE """
{{ if .System }}<|start_header_id|>system<|end_header_id|>

{{ .System }}<|eot_id|>{{ end }}{{ if .Prompt }}<|start_header_id|>user<|end_header_id|>

{{ .Prompt }}<|eot_id|>{{ end }}<|start_header_id|>assistant<|end_header_id|>

{{ .Response }}<|eot_id|>
"""

以上的模板和参数等于我直接参考了正版的Llama3的仓库里的文件

4、创建模型哈

ollama create llama38bChineseQ6k -f Modelfile

成功跑出来了

ollama run llama38bChineseQ6k

运行模型

ok，可以了

其实这不是一个完全解码的版本

但起码中文说的不错，就行了

先这样，稍后玩玩

用ollama运行解码版llama3