Streamline Analyst 项目介绍
Streamline Analyst 是一款由大语言模型(LLMs)驱动的先进开源应用,旨在革新数据分析领域。这个数据分析助手能够轻松自动化处理数据清洗、预处理等任务,甚至还能执行如目标对象识别、测试集合划分以及根据数据选择最佳模型等复杂操作。借助Streamline Analyst,实现结果可视化和评估变得轻而易举。
使用简便
用户只需选择数据文件,选择分析模式,然后点击开始,Streamline Analyst便能够大大加速数据分析流程,让无论是否有数据分析背景的用户都能轻松使用。它能够帮助用户以无与伦比的效率处理数据,生成高质量的可视化结果,并且使用最佳策略进行高性能建模。
未来展望
展望未来,Streamline Analyst 计划增加高级功能,例如自然语言处理(NLP)、神经网络以及利用YOLO技术的目标检测功能,以扩大其满足多样化数据分析需求的能力。
当前版本功能
Streamline Analyst 配备了多种强大功能,包括:
- 目标变量识别:由LLMs高效识别目标变量
- 空值管理:多种策略可供选择,包括平均值、众数填充、插值或引入新类别,所有方法均由LLMs推荐
- 数据编码策略:提供最佳编码方法的建议和自动完成,包括独热编码、整数映射、标签编码
- 降维技术(PCA)
- 重复实体解决
- 数据转换与标准化:使用Box-Cox变换和标准化技术优化数据分布和可伸缩性
- 目标变量实体均衡:LLMs推荐的方法如随机过采样、SMOTE和ADASYN,帮助均衡数据集,确保模型训练的公正性
- 数据集比例调整:由LLMs决定数据集比例(也可手动调整)
- 模型选择与训练:根据数据,LLMs推荐并启动最合适的模型训练
- 簇数推荐:利用肘部法则和轮廓系数推荐最佳簇数,并支持实时调整
所有处理后的数据和模型均可下载,提供一套完整且友好的数据分析工具。
建模与结果可视化
Streamline Analyst 提供了多种建模任务支持,包括分类模型、聚类模型和回归模型。用户还可以利用强大的实时计算指标和结果可视化功能,获得深入的分析结果:
- 分类指标:模型评分、混淆矩阵、AUC值、F1值、ROC图等
- 聚类指标:轮廓值、Calinski-Harabasz值、Davies-Bouldin值、簇散点图等
- 回归指标:R平方值、均方误差(MSE)、均方根误差(RMSE)、绝对误差(MAE)、残差图、预测值与实际值图等
可视化分析工具
Streamline Analyst 提供多种直观的可视化工具提升数据洞察能力,并且无需API Key:
- 单属性可视化:深入了解单一数据方面
- 多属性可视化:全面分析变量之间的关系
- 三维制图:复杂数据关系的高级3D表示
- 词云:通过词频突出关键主题和概念
- 世界热图:以可视化形式展现地理趋势和分布
本地安装指南
为了在本地运行Streamline Analyst,用户需要以下准备工作:
先决条件
- 安装 Python 3.11.5
- 获取 OpenAI API Key(注意:免费配额不支持GPT-4)
安装步骤
- 安装所需的包:
pip install -r requirements.txt
- 在本地机器上运行
app.py
:streamlit run app.py
通过以上步骤和功能,Streamline Analyst 为用户提供了一种便捷且强大的数据分析解决方案。