1filellm项目简介
1filellm是一个高效的数据聚合工具,专为大语言模型(LLM)提示创建而设计。它可以从多种来源收集和预处理数据,将其编译成单个文本文件,并自动复制到剪贴板以便快速使用。
主要功能
- 自动检测输入源类型(路径、URL或标识符)
- 支持多种输入源:本地文件/目录、GitHub仓库、拉取请求、问题、arXiv论文、YouTube转录、网页文档、Sci-Hub论文等
- 处理多种文件格式,包括Jupyter Notebook和PDF
- 网页爬取功能,可提取链接页面内容
- 集成Sci-Hub,可自动下载研究论文
- 文本预处理:压缩/非压缩输出、停用词移除、小写转换等
- 自动复制非压缩文本到剪贴板
- 报告压缩和非压缩输出的token数量
- 使用XML标签封装输出,提高LLM处理效果
安装指南
- 安装依赖:
pip install -U -r requirements.txt
-
克隆仓库或下载源代码
-
获取GitHub个人访问令牌(用于访问私有仓库)
使用方法
运行以下命令:
python onefilellm.py <输入源>
例如:
python onefilellm.py https://github.com/jimmc414/1filellm
学习资源
- GitHub仓库 - 包含源代码、文档和示例
- 项目README - 详细的功能说明和使用指南
- 安装说明 - 如何安装和配置1filellm
- 使用教程 - 各种输入源的使用方法和示例
- 配置指南 - 如何自定义文件类型和爬取深度
- XML输出格式说明 - 输出结构的详细解释
- 最近更新 - 了解最新功能和改进
- 自动化测试说明 - 如何运行和扩展测试用例
注意事项
- 修改允许的文件类型:
allowed_extensions = ['.py', '.txt', '.js', ...]
- 调整网页爬取深度:
max_depth = 2
- 控制台会显示压缩和非压缩输出的token数量
1filellm是一个强大的数据聚合工具,可以大大提高LLM提示创建的效率。通过学习和使用这些资源,开发者可以充分利用该工具,为自己的LLM应用创建更加丰富和精准的提示。🚀💡