https://www.modelscope.cn/models/Qwen/Qwen2.5-VL-72B-Instruct 

uv init vl-test
cd .\vl-test\

增加依赖

uv add openai

打开vscode

记得切到venv下面去

from openai import OpenAI

client = OpenAI(
    base_url='https://api-inference.modelscope.cn/v1/',
    api_key="xxxxxxxxxxxxxxxxxx", # ModelScope Token
)

def main():
    response = client.chat.completions.create(
    model='Qwen/Qwen2.5-VL-72B-Instruct', # ModelScope Model-Id
    messages=[{
        'role':
            'user',
        'content': [{
            'type': 'text',
            'text': '描述这幅图',
        }, {
            'type': 'image_url',
            'image_url': {
                'url':
                    'https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/audrey_hepburn.jpg',
            },
        }],
    }],
    stream=True
    )

    for chunk in response:
        print(chunk.choices[0].delta.content, end='', flush=True)
    print("Hello from vl-test!")


if __name__ == "__main__":
    main()



这是一张黑白照片,展示了一位女性在厨房里蹲着打开烤箱门的场景。她穿着一件带有花纹的吊带连衣裙,
头发梳成一个整齐的发型。她的表情专注,似乎在检查烤箱里的东西。厨房的环境看起来比较老旧,
有白色的橱柜和窗户,地板是深色的。整体氛围显得非常生活化和自然。

然后我需要测试一下,它能不能读取我服务器上的图片:

 https://blog.lemonhall.me/static/uploads/image_aosyegxziecmxfnpzuew.png 

报错了,看来不行

那试试别的办法

然后测试了一下本地文件的写法,结果报错说根本不支持这个type。。。

我真特么谢谢你

行吧,那救只能用image_url来试试了

然后在国内随便选了一个图床:

 https://www.superbed.cn/ 

试了一下,可以

测试通过

=========================

接着干正事儿了

接下来是坐标测试

然后我看了一下(450,630)这个输出结果,还可以

接着我换了一下提示词:

给我点击微信(测试版)的相对于图片的坐标值出来,比如(22,33),另外输出的坐标值要尽可能的接近于图标的中心位置;
输出格式为简单的(22,33),不要有任何其它文字的描述;

上面红色的叉叉是第一次用提示词输出的坐标值

然后蓝色的则是第二次输出的坐标值

接着是微信的截图:

错误的,就不测试了

略微失望

这个场景很简单,但没有通过测试