柠檬叔的博客

https://www.modelscope.cn/models/Qwen/Qwen2.5-VL-72B-Instruct

uv init vl-test
cd .\vl-test\

增加依赖

uv add openai

打开vscode

记得切到venv下面去

from openai import OpenAI

client = OpenAI(
    base_url='https://api-inference.modelscope.cn/v1/',
    api_key="xxxxxxxxxxxxxxxxxx", # ModelScope Token
)

def main():
    response = client.chat.completions.create(
    model='Qwen/Qwen2.5-VL-72B-Instruct', # ModelScope Model-Id
    messages=[{
        'role':
            'user',
        'content': [{
            'type': 'text',
            'text': '描述这幅图',
        }, {
            'type': 'image_url',
            'image_url': {
                'url':
                    'https://modelscope.oss-cn-beijing.aliyuncs.com/demo/images/audrey_hepburn.jpg',
            },
        }],
    }],
    stream=True
    )

    for chunk in response:
        print(chunk.choices[0].delta.content, end='', flush=True)
    print("Hello from vl-test!")


if __name__ == "__main__":
    main()

这是一张黑白照片，展示了一位女性在厨房里蹲着打开烤箱门的场景。她穿着一件带有花纹的吊带连衣裙，
头发梳成一个整齐的发型。她的表情专注，似乎在检查烤箱里的东西。厨房的环境看起来比较老旧，
有白色的橱柜和窗户，地板是深色的。整体氛围显得非常生活化和自然。

然后我需要测试一下，它能不能读取我服务器上的图片：

https://blog.lemonhall.me/static/uploads/image_aosyegxziecmxfnpzuew.png

报错了，看来不行

那试试别的办法

然后测试了一下本地文件的写法，结果报错说根本不支持这个type。。。

我真特么谢谢你

行吧，那救只能用image_url来试试了

然后在国内随便选了一个图床：

https://www.superbed.cn/

试了一下，可以

测试通过

=========================

接着干正事儿了

接下来是坐标测试

然后我看了一下（450，630）这个输出结果，还可以

接着我换了一下提示词：

给我点击微信（测试版）的相对于图片的坐标值出来，比如(22,33),另外输出的坐标值要尽可能的接近于图标的中心位置；
输出格式为简单的(22,33)，不要有任何其它文字的描述；

上面红色的叉叉是第一次用提示词输出的坐标值

然后蓝色的则是第二次输出的坐标值

接着是微信的截图：

错误的，就不测试了

略微失望

这个场景很简单，但没有通过测试

通义千问2.5-VL-72B-Instruct试用