LIDA 项目介绍
项目概述
LIDA 是一个能够自动生成数据可视化和信息图表的库,该库基于大型语言模型进行开发。LIDA 具有通用的语法能力,这意味着无论使用何种编程语言或可视化库(如 matplotlib、seaborn、altair、d3 等),都可以利用 LIDA 进行可视化生成。此外,LIDA 支持多种大型语言模型提供商,如 OpenAI、Azure OpenAI、PaLM、Cohere 和 Huggingface。这使得 LIDA 可以适配多种数据情境和需求。
主要特点
LIDA 的一大特色是将「可视化视为代码」,提供了一系列功能以便生成、执行、编辑、解释、评估和修复可视化代码。具体功能包括:
- 数据摘要
- 可视化目标生成
- 可视化生成
- 可视化编辑
- 可视化解释
- 可视化评估和修复
- 可视化推荐
- 信息图表生成(测试中)
快速上手
用户需要确保 Python 环境为 3.10 或更高版本。LIDA 可以通过 pip 安装:
pip install -U lida
安装后,需要设置 API 密钥以便使用大型语言模型:
export OPENAI_API_KEY=<your key>
用户可以通过运行以下命令来启动 LIDA 的网页界面:
lida ui --port=8080 --docs
然后在浏览器中访问 http://localhost:8080/
以探索其功能。
功能详解
数据摘要
LIDA 能够对给定的数据集生成紧凑的摘要,帮助用户快速了解数据概况。
可视化目标生成
根据数据摘要生成一组可视化目标,从而指导可视化的生成过程。
可视化生成和编辑
LIDA 可以根据指定的目标生成和执行可视化代码,并通过自然语言进行编辑。例如,可以用命令将图表转换为柱状图或更改颜色。
可视化解释和评估
LIDA 能够生成可视化代码的自然语言解释,并对可视化进行评估以寻找和修复错误。
推荐和信息图表生成
根据数据集,LIDA 能够生成推荐的可视化方案,并尝试生成数据可信的信息图表。
最佳实践
用户应在安全环境下运行 LIDA,并确保数据集可以被加载至 pandas 数据框。例如,数据可以是 CSV 文件或包含对象列表的 JSON 文件。LIDA 更适合小型数据集的处理。对于大型数据集,建议对列进行预处理。
社区支持
LIDA 的开发者欢迎社区通过贡献提高其功能,并分享使用 LIDA 构建的应用示例,如结合 Streamlit 的项目 lida-streamlit。文档和更多信息可以通过其官方页面获取。
LIDA 提供了一种创新、模块化且可扩展的方式来生成数据可视化,为开发者构建应用程序带来了更多的可能性。