粘贴一张官网的流程图


数据集是从某个页面download下来的嘴臭数据集


然后我使用了AI编程工具,把它转换成特定格式:


当然这个格式就是百炼里的示例jsonl

转换完成后就长这个样子了


数据准备就这样了

这个数据集其实极不文明也不礼貌,但优点在于,嘴非常的臭,风格非常明显,所以作为训练数据很有代表性

接着


进入阿里云百炼,数据管理里

导入,瞬间就OK了

数据也不多,4000条而已


选择好模型

选择好训练方式

接着训练费用就出来了

3块钱到6块钱

当然是可以接受的玩法

当然,参数都是默认的,训练效果未必好,这个需要之后慢慢实验



给doubao看了一下曲线数据,看下来还可以


 https://huggingface.co/MLZoo/Qwen2.5-1.5B-Instruct-DPO-bad-boy 


原帖训练的超参如上

我等于是没用人家的超参,就只是epochs了3次而已

训练完成


使用后计费!

卧槽,这个真厚道啊

训练用了半个小时,然后部署又用了

然后试一下效果

做一个对比。。。

微调过后的这模型,嘴是真的臭啊。。。

卧槽

好嘞,发现阿里百炼的微调平台是真的好用,百度那个简直是沙雕设计的,而且收费也变态,开实例。。一连串迷之操作

反正3个月前实验,简直难用到爆

阿里云这个体验真的不错,整合度非常高,而且可以一键部署,非常nice



嘴是真臭啊。。。。。。

哈哈哈哈,这个训练集,真是。。。。。。一言难尽