#CodeSage
codesage-large - 多语言源代码理解的大规模嵌入模型
Github开源项目自然语言处理机器学习模型HuggingfaceCodeSage源代码理解代码嵌入模型
CodeSage-Large是一个基于编码器架构的开源代码嵌入模型,专为多种源代码理解任务而设计。该模型在涵盖9种主流编程语言的Stack数据集上预训练,采用掩码语言建模和双模态文本-代码对训练方法。它与AutoModel和Starcoder分词器兼容,便于集成使用。CodeSage-Large为代码分析和处理提供了高效的表示学习能力。
codesage-small - 多语言支持的开源码理解与嵌入模型
Github开源项目深度学习模型语言建模Huggingface代码嵌入CodeSage编码器架构
CodeSage-Small是一个开源代码嵌入模型,以编码器结构为基础,提供多语言源码理解功能。训练数据来自去重后的Stack数据集,支持九种编程语言,包括c、java和python。采用掩码语言模型和双模态数据进行训练,通过Starcoder分词器和AutoModel实现便捷加载,可生成高维代码嵌入。详细信息可参考相关研究论文。