FinGLM 项目介绍
项目背景
FinGLM 是一个开放、公益且持久的金融大模型项目。该项目旨在通过开源的方式促进人工智能与金融领域的结合,具体地讲,希望利用AI技术来实现对复杂的金融文本进行高效分析,特别是解读上市公司年报中的专业术语和隐含信息。
项目目标
FinGLM 的终极目标是打造一个能产生类似专家分析效果的智能系统,帮助更多人轻松理解金融数据。这不仅能提高分析的效率和准确性,还能帮助用户轻松应对金融对话中的挑战。
项目框架
数据准备流程
- PDF 转 TXT:将PDF文件转为TXT格式,确保保留原有的表格和合并单元格。
- 数据切分:将数据分为基础信息、财务数据和综合信息等类别,以便更好地组织和分析。
- 数据处理:进行基础公式计算、增长率计算、行业均值及排名计算等。
- 存入数据库:数据最终存储在SQL、Mongo和ES等数据库中。
模型微调流程
- 对数据进行分类后,选择合适的微调策略(如ptuningv2、lora等),并执行微调过程。
问答流程
- 用户输入问题后,系统生成相应的查询语句,通过数据库查询并给出答案。
开源路线图
开源策略
FinGLM 项目致力于数据、代码和模型的全面开源,同时希望集结更多团队和个人参与项目的维护和优化,持续推动技术进步。此外,项目还提供了一系列的学习教程和资源,为开发者提供支持。
开源进度
项目的开源进度划分为多个阶段,包括数据集的开源、决赛项目开源等。各阶段内容逐步开放,确保开发者能及时获取资源和技术支持。
项目活动
FinGLM 项目参与了一系列的比赛,如SMP 2023 ChatGLM金融大模型挑战赛,旨在通过比赛促进技术交流与合作。多支参赛队伍在项目中亮相,展示了各自的解决方案和技术创新。
数据集与标注数据
FinGLM 项目提供了2019至2021年间的年报数据集,以及多个比赛阶段人工标注的数据。这些数据为金融分析提供了强大的支持,开发者可以通过提取文本和表格、构建金融数据库以及信息提取等手段来增强金融知识问答能力。
课程与学习资源
FinGLM 还提供了一系列关于 ChatGLM 模型使用的教程,包括 PPT、视频及技术文档等,为开发者和研究人员提供了丰富的学习资源。
贡献者招募
FinGLM 项目由多个团队协作维护,鼓励更多志同道合的开发者和团队参与。项目的所有资源均为公益性开放,致力于推动AI金融分析的普及和发展。
免责声明
FinGLM 为公益性项目,资源仅供研究和交流使用,商业用途请自行承担法律风险;如涉及到商业应用,请严格遵循相关模型的使用协议。