https://www.modelscope.cn/models/Qwen/Qwen2.5-VL-72B-Instruct
uv init vl-test
cd .\vl-test\增加依赖
uv add openai
打开vscode

记得切到venv下面去
from openai import OpenAI
client = OpenAI(
base_url='https://api-inference.modelscope.cn/v1/',
api_key="xxxxxxxxxxxxxxxxxx", # ModelScope Token
)
def main():
response = client.chat.completions.create(
model='Qwen/Qwen2.5-VL-72B-Instruct', # ModelScope Model-Id
messages=[{
'role':
'user',
'content': [{
'type': 'text',
'text': '描述这幅图',
}, {
'type': 'image_url',
'image_url': {
'url':
'https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/audrey_hepburn.jpg',
},
}],
}],
stream=True
)
for chunk in response:
print(chunk.choices[0].delta.content, end='', flush=True)
print("Hello from vl-test!")
if __name__ == "__main__":
main()

这是一张黑白照片,展示了一位女性在厨房里蹲着打开烤箱门的场景。她穿着一件带有花纹的吊带连衣裙,
头发梳成一个整齐的发型。她的表情专注,似乎在检查烤箱里的东西。厨房的环境看起来比较老旧,
有白色的橱柜和窗户,地板是深色的。整体氛围显得非常生活化和自然。然后我需要测试一下,它能不能读取我服务器上的图片:
https://blog.lemonhall.me/static/uploads/image_aosyegxziecmxfnpzuew.png

报错了,看来不行
那试试别的办法

然后测试了一下本地文件的写法,结果报错说根本不支持这个type。。。
我真特么谢谢你
行吧,那救只能用image_url来试试了
然后在国内随便选了一个图床:

试了一下,可以


测试通过
=========================
接着干正事儿了




接下来是坐标测试

然后我看了一下(450,630)这个输出结果,还可以
接着我换了一下提示词:
给我点击微信(测试版)的相对于图片的坐标值出来,比如(22,33),另外输出的坐标值要尽可能的接近于图标的中心位置;
输出格式为简单的(22,33),不要有任何其它文字的描述;
上面红色的叉叉是第一次用提示词输出的坐标值
然后蓝色的则是第二次输出的坐标值
接着是微信的截图:


错误的,就不测试了

略微失望
这个场景很简单,但没有通过测试