DuckDB 是一个嵌入式分析数据库。不是跑在服务器上,而是嵌入在应用里像一个库一样调用。分析查询比 SQLite 快 100 倍。AI 社区用它做大模型数据预处理很方便:处理清洗过的数据集、做特征工程、跑聚合分析,全在本地完成不需要连远程数据库。
DuckDB 支持 SQL 标准语法,pandas 用户可以直接用 Python 调用。它和 Parquet 文件集成很好,可以直接查询 Parquet 格式的数据,不需要先导入。AI 训练数据的预处理管线用 DuckDB 来写 SQL 比用 pandas 快几倍。
免费开源,单文件运行。适合数据科学家和分析师做本地数据分析。和 SQLite 比,DuckDB 是列式存储分析查询快很多。和 ClickHouse 比,DuckDB 不需要部署服务端。
