柠檬叔的博客

Vanna项目总结

Vanna是一个开源的Python RAG（检索增强生成）框架，专注于SQL生成和相关功能，主要用于自然语言转SQL查询。

目录结构

核心组件:

src/vanna/base/base.py: 核心抽象基类，定义了整个框架的接口

src/vanna/__init__.py: 公共API和入口点

src/vanna/remote.py: 远程API连接

模块化组织:

LLM模型实现: 支持多种大型语言模型

openai/: OpenAI接口

anthropic/: Anthropic Claude接口

google/: Google Gemini接口

ollama/: Ollama接口

以及其他LLM接口

向量存储实现: 支持多种向量数据库

chromadb/: ChromaDB接口

pgvector/: PostgreSQL向量接口

pinecone/: Pinecone接口

以及其他向量数据库接口

数据库连接器: 支持多种数据库

包括PostgreSQL, MySQL, Snowflake, ClickHouse等

核心逻辑

VannaBase基类:

定义了核心的RAG流程和接口

包含训练模型、生成SQL、运行SQL等基本方法

使用抽象方法要求子类实现特定功能

典型工作流程:

训练阶段:

3. 用户提供SQL示例、DDL定义或业务文档

4. 系统使用向量存储生成和存储嵌入

查询阶段:

3. 用户提出自然语言问题

4. 系统检索相关的训练数据（SQL、DDL、文档）

5. 生成适当的提示并提交给LLM

6. LLM生成目标SQL查询

7. 可选：系统执行SQL并生成可视化

扩展性设计**:

模块化设计允许用户选择不同的LLM和向量存储组合

通过继承适当的实现类来自定义功能

关键类和接口

VannaBase:

核心抽象基类，定义RAG框架的基本结构

实现高级功能如SQL生成、数据库连接等

各种LLM实现:

例如OpenAI_Chat：实现与OpenAI API的交互

提供submit_prompt方法发送提示并获取响应

各种向量存储实现:

例如ChromaDB_VectorStore：实现训练数据的存储和检索

负责嵌入生成、数据添加与检索

远程API接口:

VannaDefault：允许用户连接到Vanna的托管服务

使用流程

安装与配置:

from vanna.openai.openai_chat import OpenAI_Chat

from vanna.chromadb.chromadb_vector import ChromaDB_VectorStore

class MyVanna(ChromaDB_VectorStore, OpenAI_Chat):

def __init__(self, config=None):

ChromaDB_VectorStore.__init__(self, config=config)

OpenAI_Chat.__init__(self, config=config)

vn = MyVanna(config={'api_key': 'sk-...', 'model': 'gpt-4-...'})

训练模型:

vn.train(ddl="CREATE TABLE IF NOT EXISTS my-table (...)")

vn.train(documentation="业务定义...")

vn.train(sql="SELECT * FROM table...")

提问并生成SQL:

vn.ask("销售额前10名的客户是谁？")

数据库连接:

vn.connect_to_postgres(host="...", dbname="...", user="...", password="...")

技术亮点

多种LLM支持: 可扩展到多种大语言模型，包括开源和商业模型

灵活的向量存储: 支持多种向量数据库，满足不同需求

广泛的数据库支持: 支持常见的SQL数据库

自动可视化: 生成Plotly图表以可视化查询结果

安全隐私: 数据库内容不会发送到LLM或向量数据库

这个框架的核心功能是使用检索增强生成(RAG)技术，将自然语言问题转换为SQL查询，有助于非技术人员通过自然语言与数据库交互。

1、我的问题是这样的，它这个框架启动阶段可以给vn导入多个DDL的文档定义，我使用的时候是每一张表，一个文件的形式插入给vn的，我想知道，它在生成sql的阶段，怎样使用的这些训练数据？是粗暴的把所有的DDL都插入了上下文还是？

我来解释一下Vanna框架在生成SQL阶段如何使用训练数据的。

当你通过导入多个DDL文件给vn进行训练时，Vanna并不是简单地把所有DDL都粗暴地插入上下文。它使用了更加智能的检索增强生成(RAG)方法。

基于源代码分析，我来解释Vanna框架在生成SQL阶段是如何使用训练数据（尤其是DDL定义）的：

Vanna处理DDL训练数据的工作流程

存储阶段：

当你通过vn.train(ddl="CREATE TABLE...") 或者通过文件形式导入DDL时，每个DDL都会被添加到向量数据库中（如ChromaDB）

DDL被转换为向量嵌入（embeddings）并存储在专门的"ddl_collection"集合中

每个DDL文档都有一个唯一ID，用于后续检索

检索阶段：

当你提出自然语言问题时，Vanna执行get_related_ddl(question)方法

这个方法使用语义相似度搜索，从所有存储的DDL中找出与当前问题最相关的子集

默认情况下，会检索前N个相关DDL（在ChromaDB实现中，默认是10个，由n_results_ddl参数控制）

上下文构建阶段：

在generate_sql方法中，系统会收集这些相关DDL

通过add_ddl_to_prompt方法，系统会将这些相关DDL添加到提示中

重要的是，系统不会将所有DDL都添加到上下文中，而是仅添加与当前问题相关的DDL

同时，系统还会考虑token限制（默认14000），确保不超过LLM的上下文限制

提示构建：

在get_sql_prompt方法中，构建最终发送给LLM的提示

提示包含以下部分：

初始指导（告诉LLM如何生成SQL）

相关DDL表定义（仅包含与问题相关的表）

vanna项目源码速读