粘贴一张官网的流程图

数据集是从某个页面download下来的嘴臭数据集

然后我使用了AI编程工具,把它转换成特定格式:

当然这个格式就是百炼里的示例jsonl
转换完成后就长这个样子了

数据准备就这样了
这个数据集其实极不文明也不礼貌,但优点在于,嘴非常的臭,风格非常明显,所以作为训练数据很有代表性
接着

进入阿里云百炼,数据管理里
导入,瞬间就OK了
数据也不多,4000条而已

选择好模型

选择好训练方式

接着训练费用就出来了
3块钱到6块钱
当然是可以接受的玩法
当然,参数都是默认的,训练效果未必好,这个需要之后慢慢实验

给doubao看了一下曲线数据,看下来还可以
https://huggingface.co/MLZoo/Qwen2.5-1.5B-Instruct-DPO-bad-boy

原帖训练的超参如上
我等于是没用人家的超参,就只是epochs了3次而已
嗯
训练完成


使用后计费!
卧槽,这个真厚道啊
训练用了半个小时,然后部署又用了

然后试一下效果

做一个对比。。。
微调过后的这模型,嘴是真的臭啊。。。
卧槽
好嘞,发现阿里百炼的微调平台是真的好用,百度那个简直是沙雕设计的,而且收费也变态,开实例。。一连串迷之操作
反正3个月前实验,简直难用到爆
阿里云这个体验真的不错,整合度非常高,而且可以一键部署,非常nice

嘴是真臭啊。。。。。。
哈哈哈哈,这个训练集,真是。。。。。。一言难尽