前言:这是我自己2个月来左右,接触过、感兴趣的一些AI方向的梳理和总结,为我接下的学习和工作

本文系统梳理了AI Agent技术的多个主题方向,涵盖以下六大类别:

1、自动化与工具:包括Browser-USE、CogAgent、Eko、UI-TARS等自动化工具,以及Agent在屏幕操作、浏览器自动化等场景的应用。

2、编程与开发:涉及Cline、PydanticAI、smolsagnet等编程辅助工具,以及低代码平台如Langflow、Coze、Dify等。

3、搜索与知识管理:探讨了AI搜索技术、RAG框架(如UltraRAG、DeepRAG)、知识图谱(KG-RAG)以及数据洞察工具(如WrenAI、AskTable)。

4、多模态与感知:包括图像、视频、3D生成(如TransPixar、Apollo)、视觉模型(如YOLO、CLIP、DINO)以及多模态推理技术。

5、算力与工程化:分析了AI算力需求、并发处理、语义缓存(Semantic Cache)以及工程化实践(如微调、意图识别)。

6、安全与伦理:涉及AI安全框架(如Rebuff)、权限管理、法律审查、医疗模型(如PatientSeek)以及Agent在社会学、招聘等领域的应用。


### 1、Agent自动化方向


#### 1.1 Browser-USE

1月1日,接触了Browser-USE,一个基于大模型做自动化任务Plan,映射到actions空间,通过解析HTML技术,标记可交互元素,将标记后的(待查)文本信息元素,以及标记好的图片(待查),递交给Vision模型后,生成下一步行动的Agent工具。


核心并不复杂,甚至可以支持不带Vision的,与DeepSeek适配的调用方案。


其Web-UI是使用Gradio的,对localhost启动不友好,小Tips是关掉本地的科学,然后启动,之后再开放,可以使用自然语言执行任务,比如去京东买瓶水啥的。


项目活跃度较高。


#### 1.2 智谱开源CogAgent AI自动屏幕操作

对Computer-USE的国内探索吧,效果不怎么样,有待提高。


#### 1.3 Eko

清华这边的一个框架,它的定位比较奇怪,我们其实都把它当作一个爬虫/自动化的构建工具,但它官网给的自我定位是,一个Agent构建框架。


它是两阶段,第一阶段构建Workflow,其实是LLM根据用户需求构建的,第二阶段执行,底模主要依赖GPT和Claude,这两家的。所以它不是个端到端的解决方案。


#### 1.4 UI-TARS

图标到坐标信息的Grounding任务中,表现较好,是字节跳动搞出来的模型,72B效果才好,非常消耗资源,但现在确实也只是研究性项目,和以上都不同,它是个模型。


#### 1.5 微软的OmniTools

看了一下,这个东西很神奇,它结合了比较成熟的DINO技术,这个是在去年的SAM里就接触到过的DINO技术,只是我当时还不知道这是啥玩意,SAM把它用在边缘检测里了,清华的人也说这个模型其实很擅长Grounding的任务。


啊,我看了一下,它用了很多传统的模型技术这些,最后给屏幕的图标和菜单、按钮自动标记Box。


然后调用了飞桨的OCR组件,做字符提取,最终的输出类似于Browser-USE这样,就是一个屏幕的DOM树(但我看压根就不是树形的)。


之后的过程其实也几位前辈都很像了。


嗯,有点意思,而且其实蛮工业化的解决方案,因为DINO是适配性很好,对小图标的适配性也很好。


这是个工程化的解决方案,且训练出来的东西其实才43M,关键要点其实是标记图片数据了,在某个数据集上能达到39%的准确率,继续观望吧,这个数据甚至高于当下所有的其它了。


### 2、Agent与编程方向


#### 2.1 Cline工具

Cline工具应该大规模的应用了LangChain,和各种最佳实践,实现了MCP-Server的看护以及MCP-Client的一个编程辅助工具,本身为一个VSCode的插件,可以实现自动多代码编辑和生成。


写过几个小工具的时候用过它,很智能,但因为DeepSeek官网现在API不是很稳定,所以,可能需要借用OpenAI的那几个配置了。


另外在使用上,可以鼓励Cline去借鉴/抄袭别的成熟的项目,成功率要高得多,其外,有想过给它外接一个RAG库来实现提升。


这里可以使用火山的服务等,业务应用场景是在游戏编程,比如Godot4的语法这些,DeepSeek这些掌握的未必好。


另外,结合Swark工具,可以生成项目的架构图,辅助AI进行进一步的工作。


另外可以参考:[给 Cursor 装上第二大脑让他记住上下文](https://mp.weixin.qq.com/s/Y39OoBgfviA_wNX1rG5npg),这篇文章进行进一步的优化。


### 3、Agent技术框架/低代码/图形代码平台测评


#### 3.1 PydanticAI:一个基于 Python 的新代理框架,用于构建生产级 LLM 支持的应用程序

Pydantic团队推出的一个Agent框架,对结构化那块做了特殊加强,简要看了看Demo,尚未有时间去尝试,可以纳入未来尝试的计划当中去。


#### 3.2 smolsagnet框架

抱抱脸推出的,搜索+Coding解决万物问题的框架,我看了一下,它把数学计算交给了Python的代码生成。


官方例子很有意思,【猎豹跑过艺术桥要多久?】


先Wiki了以下猎豹的速度和艺术桥是个啥,多长,然后编程解决了问题,大约8-10秒。


当然DeepSeek-R1给的就非常可怕了,边界条件就更多,说明R1明显更适合生成健壮的测试用例这些!!!


这个框架值得持续关注,抱抱脸还基于这个搞出来了新的Deep Research的Demo,蛮有趣的。


#### 3.3 autogen

微软的框架,其实下层做了完全的颠覆级别的重构,我看了一下,是一个基于Actor模型的重写等于是,这确实也是对的,因为Actor模型天生就是在模仿人类之间的交互。


框架不错,当然很多API也很抽象,另外它也有图形界面,只不过都是适配的GPT这些,可以再看看,需要自己写JSON去适合好DeepSeek这些。


成功率较高其实。


#### 3.4 dify

有点Low,把Flow概念和Agent概念这些强行区别开了,不支持任意组合,但日常用肯定是可以的,Flow构建的可视化工具吧。


#### 3.4 coze扣子

商业化平台,可以自动化构建Agent,根据你的需求,自动装配工具,写提示词,值得深入探索,当然平台提供的很多第三方工具根本是扯淡,调用成功率很低。


#### 3.5 百度的Agent平台

不用看了,内斗太严重了,产品设计很割裂。


#### 3.6 litellm

一个库,没啥好说的,玩smolsagent的时候用到了,很好用,适配各家的API。


#### 3.7 langflow的完成度好高[强]真不错👌

图形化的一个平台,很赞,设计理念很好,兼容多-Agent,初步。


#### 3.8 顺丰科技:多智能体系统(OpenAI Swarm)的可观测性研究与实践

一个OpenAI的教育级的框架,500行左右,有Handoffs等基础概念的演示。


#### 3.9 开源MetaChain:LLM智能体全自动无代码框架!让普通人也能玩转智能体!

啊,太卷了!!


#### 3.10 EvoFlow Evolving Diverse Agentic Workflows On The Fly

进化论算法。


### 4、AI搜索


#### 4.1 自己做的实验性项目

https://github.com/lemonhall/nano_perplexity


#### 4.2 flowith

Flowith,有点像Coze,但流程应该都是一些文字,然后每一个Step都在用一堆提示词去驱动,一跑甚至要十分钟那种。


这个网站在一个月后忽然理解的更深了,有点像【模仿学习】的那篇RAG论文里的那些知识,很有意思。


#### 4.3 browser-use

Browser-USE这边也开始了一个实验性Deep Research的版本,优点就在于,因为是调用的游览器,所以不再需要爬虫型的API,而且我看了一下,Node-Deep Research那边更暴力,还推出了一个Chrome的插件,一口气把整个网站MD化,真是为了给模型喂数据📊都很拼。


#### 4.4 阿里WebWalker:一个提升RAG多维信息检索能力的Multi-Agent框架

还没看呢。


### 5、Agent通用知识


#### 5.1 Anthropic发布了Agent构建指南

很值得一读的Agent构建指南,很像是程序员时代的设计模式,指出来很多常见的Agent交互的最佳实践,这一篇稍后可以Review后,加入到这篇笔记里面来。


#### 5.2 个人思考的一些总结

Agent本身的定义是,是有任务提示词、有工具(增强感知、实现记忆体、操作工作)、有记忆、有行动力、能反思的一个LLM的一段代码嘛。


现在的实现五花八门,Flow流和Agent自主流,其实没啥区别,本质都是代码,现在的Agent也可以用另一个Agent完成实验性的组装,寻找最匹配的工具,自动生成与组装。而当下产业界,似乎还在纠结Flow还是自主Agent的问题。


包括很多产品经理、布道者也是,感觉我们应当跳出这些东西,把Agent、Flow、Code的本质识别清晰,就不容易被折磨,很多框架的设计其实也是内含了作者和架构师对这些事情的理解的。


所以需要谨慎。


#### 5.3 2024 热门开源 Agent 框架浅盘

一份38分钟的B站视频,很好的总结了一下四个框架,CrewAI、autogen、langgraph还有一个我也忘了。其实知识甚至有点过时了,但值得溜一下。


#### 5.4 三贤人系统

忽然想起来30年前的《新世纪福音战士》里的Nerv的主电脑。。。它其实就是一个Multi-Agent系统啊,Magi System,三贤人系统....Melchior-1、Balthasar-2、Casper-3。


其实,这个确实就是autogen以及大家都提到过的一种投票模式。


### 6、客户端工具


#### 6.1 5ire

一个全平台的工具,但主要集中在PC端和Mac,不支持移动端,这东西怎么说呢,就是不太好用,但它支持MCP协议,可以试试,尤其是国外的仔。


#### 6.2 chatbox

全平台,这是真的全平台,然后还自带一个DeepSeek-R1,V3,自己Hold的那种,但不知道是70B还是满血版,速度也不快,付费28元/月才能使用,偶尔用用现在。


#### 6.3 cherry studio

当下桌面主力的客户端了,结合火山引擎的Bots功能,可以方便丝滑的调用搜索工具,结合本地RAG和Ollama等功能,还有Agent的提示词模板,流程图、Markdown渲染等功能,相当好用。


应该是全开源的,我还能看它的源代码,chatbox不行,基于TS,应该也好改,本地还是好用。


### 7、LLM/推理大模型底层知识


#### 7.1 最热大模型 DeepSeek R1 论文解读

https://www.bilibili.com/video/BV1iSfiYHEks/


抱抱脸专家的1个小时的视频解读。


#### 7.2 R1风起,清华、港科大发布大模型强化推理技术最新全面综述

https://mp.weixin.qq.com/s/bUc12P81kLLSXQRj3MODKQ


### 8、教育领域


#### 8.1 教育出海

近日,在多知OpenTalk第48期“全球起航!‘教育+AI’出海进行时”活动上,嗨你好教育创始人李晓兵分享了一年来的创业历程和关于外国人学中文这一市场的深度思考。


#### 8.2 7B模型颠覆教育体系:匹兹堡大学新成果,LLM + 传统语言特征显著提升自动作文打分效果

其实属于提示词工程,感觉,但很有启发。


自动作文评分系统(AES)为学生的作文打分,有效减轻教师的评分负担。开发一个能够处理不同题目作文的评分系统颇具挑战性,因为写作任务本身具有高度的灵活性和多样性。现有的方法通常分为两类:监督式特征方法和基于大语言模型(LLM)的方法。监督式特征方法通常能取得更好的性能,但需要资源密集型的训练过程。相比之下,基于 LLM 的方法在推理阶段计算效率较高,但往往性能较低。本文将这两种方法结合起来,通过在基于 LLM 的评分中融入语言学特征。实验结果表明,这种混合方法在处理域内和跨域写作题目时均优于基线模型。


https://arxiv.org/abs/2502.09497


### 9、虚拟人格/陪伴领域


#### 9.1 Love 键盘

“2024 年国人最爱为哪些消费级 AI 应用花钱?答案可能是 AI 恋爱输入法”,点点数据显示头部产品的 ARR 已上探至千万人民币,甚至更高。


「Love 键盘」6 月 25 号上线,月流水 48 万美元,累计营收 180 万美元,合 1314 万人民币;


「蜜小语」6 月 13 号上线,月流水 52 万美元,累计营收 196 万美元,合 1431 万人民币;


「Lovekey 键盘」2 月 25 日上线,月流水 17 万美元,累计营收 369 万美元,合 2694 万人民币;


### 10、盲人领域


#### 10.1 多个视觉眼镜项目,使用图片分析,帮助盲人进行日常生活


### 11、数据方向


#### 11.1 WrenAI

国外的解决方案,没有尝试过,但看上去很有潜力,国内的对应供应商为AskTable,似乎较为灵活。


#### 11.2 AskTable

国内的对应解决方案。


#### 11.3 ETL框架

Pathway 是一个用于流处理、实时分析、LLM 管道和 RAG 的 Python ETL 框架。


提供易于使用的 Python API,便于与各种机器学习库集成。

支持批处理和流式数据,有效应对开发和生产环境中的需求。

基于 Rust 引擎,支持多线程、多进程及分布式计算,实现增量计算。

具备丰富的数据连接器,可连接 Kafka、GDrive 等超过 300 种外部数据源。

支持无状态和有状态转换,包括联接、窗口化及排序等功能,并允许用户自定义转换。

提供持久性功能,以确保在更新或崩溃后能够恢复管道状态。

自动管理时间,确保所有计算结果的一致性。


#### 11.4 智能数据洞察 ChatBI 适配 DeepSeek-R1 及 DeepSeek-V3

待摸索,字节跳动的材料。


### 12、时间序列方向


#### 12.1 Meta开源的一款时间序列分析工具:Kats

没时间看啊,先占个位置。


### 13、图像与视频/3D领域


#### 13.1 不用再繁琐抠像了!TransPixar一键生成透明视频!


#### 13.2 Meta AI 发布 Apollo:视频理解的新家族——LMM 大型多模态模型


#### 13.3 腾讯3D生成大模型2.0发布即开源!AI自动绑骨骼生成动画,分钟级生成游戏3D资产


#### 13.4 吴恩达押注Agent新成果官宣!零样本标记实现图片目标检测


### 14、法律审查


#### 14.1 用国产AI Deepseek做合同审查,强的一批!

https://mp.weixin.qq.com/s/Y39OoBgfviA_wNX1rG5npg


Role: 法律顾问、风险管理专家和行为心理学家的复合角色


author: 澄然prompter


Background: 在商业活动中,合同是保障各方权益的重要法律文书。然而,合同中常常存在显性和隐性的风险,需要从法律、风险管理和心理学的多个维度进行分析和评估。


Profile: 

- 拥有丰富的商业合同审查经验的法律专家

- 具备系统性风险评估能力的风险管理顾问

- 精通人性分析的行为心理学家


Skills:

- 专业的法律分析能力

- 系统的风险识别和评估能力

- 深入的心理动机分析能力

- 精准的合同漏洞识别能力

- 实用的解决方案制定能力


Goals:

1. 全面审查合同条款,识别潜在法律风险

2. 分析合同背后的心理动机和可能的陷阱

3. 提供具体的修改建议和防范措施


Workflow:

1. 法律层面分析

- 检查合同条款的合法性

- 识别权利义务是否对等

- 评估违约责任设置是否合理

- 审查争议解决机制的有效性


2. 风险管理分析

- 识别商业风险点

- 评估履约风险

- 分析财务风险

- 考察操作风险


3. 心理动机分析

- 解析对方的潜在意图

- 评估可能的欺诈倾向

- 分析权力动态关系

- 预测可能的不诚信行为


OutputFormat:

1. 风险评估报告

- 法律风险清单

- 商业风险点列表

- 心理风险提示

- 具体修改建议


2. 防范建议

- 条款修改建议

- 风险控制措施

- 谈判策略建议


Constrains:

1. 保持客观中立的分析态度

2. 基于事实和专业知识提供建议

3. 考虑建议的可操作性

4. 确保分析的全面性和系统性

5. 首次回复直接输出Initialization信息,不做多余解释


Initialization:

我是澄然的合同风险顾问,专注于从法律、风险管理和心理学三个维度为您分析合同中的潜在风险。请提供您需要审查的合同内容,我将为您进行全面的分析和评估。


为了更好地服务于您,请确保提供:

1. 完整的合同文本

2. 合同签订的背景信息

3. 您特别关注的问题或条款


### 15、AI工程化


#### 15.1 微调碾压RAG?大模型意图识别工程化实践

快速阅读:为了满足用户在电视上用自然语言找片子的需求


1、用一个7B➕微调➕Redis缓存挡住了80%以上的用户请求🥺


2、用大模型➕实时Search应对了剩下的20%请求🥺

并将应答对✅积攒称为下一轮训练用的SFT材料


最后其实7B模型估计被推送到了类似于CDN的缓存网路里去做了边缘计算🧮


所以类似的CF家的CDN边缘计算场景还是很有用的


我记得一个7B模型最少也需要一个2070的8GB显卡才能跑的比较流畅


#### 15.2 ds模型的工具调用

发现了一个方便的仓库,让Ollama上的蒸馏R1支持Tool Call,这样就可以在Autogen里面测试较为复杂的Teams Build了。


#### 15.3 Semantic Cache - 语义缓存:AI 应用的“加速引擎”,降本增效的“神器”

看了一下,不适合多轮对话场景。


### 16、 RAG技术


#### 16.1 阿里WebWalker:一个提升RAG多维信息检索能力的Multi-Agent框架

还没看。


#### 16.2 比GraphRAG更懂“思考”,微软又开源PIKE-RAG:主打复杂私域知识理解和推理


#### 16.3 Agentic Reasoning- Reasoning LLMs with Tools for the Deep Research

牛津的一篇论文,主要优点是,提示词技术不错,引入了图RAG来做归因,然后搜索和Coding的工具来实现其它,很小心的做了一些输出的排序、检测啊这些,挺那啥的。


这里的图-RAG用到了nano_graphrag这个库,还不错,这里等于是作为记忆体和知识库引擎,两方面在使用。


不错的一篇论文,有专门的PPT拆解文章【代理增强推理.pptx】。


#### 16.4、LightRAG

港大的一个,输入狄更斯,然后Mix模式下总结的小说的主题,相当给力。


#### 16.5、MiniRAG

港大的一个项目,对应的是一个测试是数据集合,【李华数据集】

揭示了一下行业的标准做法,合成数据集、问题、黄金答案(Grounding Truth)


这些,可以好好看看的项目。


#### 16.6 检索增强生成 和思维链 结合: 如何创建检索增强思维链 (RAT)?

和牛津的那篇有点类似。


#### 16.7、HtmlRAG:RAG系统中,HTML比纯文本效果更好

需要再去看看的一个东西。


#### 16.8、Ragas框架,相当不错的基础测评框架

支持基础的多模态,支持合成数据、合成答案、辅助Grounding过程,很方便。


未来要好好摸。


#### 16.9 图谱富贵病

其次是知识图谱的"富贵病"。微软等公司采用的三元组知识图谱(KG-RAG)虽然效果优异,但需要调用大模型逐条提取实体关系。以处理 5GB 法律案例为例,仅 API 调用费用就高达 3.3 万美元,这还没有算上工程师调试 Prompt 的人力成本。这种"土豪玩法"让中小型企业望而却步。


#### 16.10 清华等团队推出 UltraRAG 框架全家桶,让大模型读懂善用知识库!

从测评到微调的全家桶框架。


#### 16.11 DeepRAG:提升大语言模型推理能力的利器【一篇很有启发的论文,可以把几个范式都总结到这个思维框架下来】

模仿学习

模仿学习….等于是自动构建了一个最佳Recipes的库。


和Flowith的方案其实很像,就是我之前没想明白怎么去构建的,对测试和拉基线那块不熟悉….LLM的Plan最后被检测之后,好的那些策略就被堆上去权重,下次再抄作业[破涕为笑]收藏了,稍后去看看论文….老的机器学习系统也有在线学习的概念。


二叉树搜索🔍….靠,好暴力[破涕为笑],把Plan出来的自搜索用RAG和不用RAG都试了一遍。


核心就是构建这个都试试的策略树,然后构建了一套测试体系,最后得分高的小本本记下来,下次还用!


其实和昨天的具身机器人🤖的那个流程是一样的,构建策略、执行策略、评估策略(OB),反思策略,最后形成记忆,下次不再经过System 2的长考,而是可以模仿就行,类似于某种System 1的执行,靠,慢与快,看来是需要拿来读一读了,AI时代不读这个感觉不得劲…,然后昨天发现的O3这些模型身上的短长考和长长考模型入参应该能优化这个决策的沉淀与执行过程!!!爽。


#### 16.12 Salesforce 新方法让RAG效果飙升

待看。


### 17、多模态


#### 17.1 多模态的思考之一

大佬们都喜欢说多模态…..觉得没有多模态就不是AGI,也不能说错…但盲人🧑‍🦯又不蠢…..只是很多事做不了而已,他们智力又没啥问题…..


盲人也可以有感官和手脚与这个世界交互。从出生只读过书的就很难把概念和现实连接,需要Grounding。


#### 17.2 视觉这块

YOLO、CLIP、DINO,这三个虽然都老,但值得再去仔细梳理一下的。


#### 17.3 SimDINO | 借助编码比率正则化简化DINO并提升性能

DINO原来很难训练,是一个自蒸馏的算法。


### 18、AI算力


#### 18.1 并发的大概的基础概念

知道AI算力消耗吓人,但不知道这么吓人😟 8张卡这么大一个,4U机箱了吧,H20,也就是20人左右的并发[破涕为笑]。


#### 18.2 RAG的算力要求

其次是知识图谱的"富贵病"。微软等公司采用的三元组知识图谱(KG-RAG)虽然效果优异,但需要调用大模型逐条提取实体关系。以处理 5GB 法律案例为例,仅 API 调用费用就高达 3.3 万美元,这还没有算上工程师调试 Prompt 的人力成本。这种"土豪玩法"让中小型企业望而却步。


### 19、AI安全


#### 19.1 为AI Agent设定边界:自然语言权限与结构化权限的结合

属于审计框架。


#### 19.2 rebuff

https://github.com/protectai/rebuff


Heuristics: Filter out potentially malicious input before it reaches the LLM.

LLM-based detection: Use a dedicated LLM to analyze incoming prompts and identify potential attacks.

VectorDB: Store embeddings of previous attacks in a vector database to recognize and prevent similar attacks in the future.

Canary tokens: Add canary tokens to prompts to detect leakages, allowing the framework to store embeddings about the incoming prompt in the vector database and prevent future attacks.

其实也是一种RAG。


### 20、具身智能


#### 20.1 AutoManual Constructing Instruction Manuals by LLM Agents via Interactive Environmental Learning

昨天还在和朋友聊天💬,聊多模态以及多世界🌎的构建问题,今天就看到了这个,给LLM装上身体,规则都不告诉它,然后让孩子自己去闯,它自己理解世界🌎…..视觉你看,不必要吧?


### 21、HR招聘领域


#### 21.1 AI语音面试平台FoloUp

啊,很多HR的工作都没必要了。


### 22、计算机社会学


#### 22.1 AgentAI | 用「AI人」来复制社会科学实验,结果比真人还真?


### 23、医疗领域


#### 23.1 微调的医疗模型,4.7Gb,可参考

https://medium.com/enterprise-rag/introducing-patientseek-the-first-open-source-med-legal-deepseek-reasoning-model-74f98e9608ae


### 24、法律领域


#### 24.1 DeepSeek-Law???

待证实。