esm1b_t33_650M_UR50S

以高级特征提取和预测提高蛋白质序列无监督学习的有效性

无监督学习 Github 开源项目 ESM-1b 结构预测蛋白质序列功能预测 Huggingface 模型

ESM-1b是一个Transformer架构的蛋白质语言模型，通过对未标记的蛋白质序列进行自监督预训练，具备了结构与功能预测的无监督能力。该模型在远程同源检测和二级结构预测等任务上表现优良，可用于特征提取和模型微调。虽然ESM-2性能优越，但ESM-1b仍是研究蛋白质特征的重要工具。

10.5B_v1 - 介绍最前沿的自然语言处理开源项目

GithubHuggingfacetransformers卡片开源项目模型训练评估

本页面介绍了在🤗transformers平台上发布的自然语言处理模型，支持直接与下游应用。页面提供模型使用指导、性能评估、环境影响及技术规格信息，帮助用户合理利用模型的同时意识到潜在的偏见、风险和局限。

multilingual-e5-large - 大规模多语言文本编码模型，适用于多种NLP任务

GithubHuggingfacemultilingual-e5-large多语言支持开源项目机器学习模型自然语言处理语言模型

multilingual-e5-large是一个支持100多种语言的大规模文本编码模型。该模型在文本分类、检索、聚类和语义相似度等多项自然语言处理任务中表现优异。基于Transformer架构，它能够生成高质量的多语言文本嵌入，适用于各种跨语言NLP应用。在MTEB基准测试中，该模型展现了出色的多语言和多任务处理能力。

evo - 实现跨尺度DNA序列建模与设计的开源工具

DNA建模EvoGithub基因组尺度序列设计开源项目生物基础模型

Evo是一个开源的生物基础模型，专注于DNA序列的长上下文建模和设计。基于StripedHyena架构，Evo实现了单核苷酸级别的序列建模，具有近乎线性的计算和内存扩展性。该模型拥有70亿参数，在OpenGenome数据集上训练，包含约3000亿个原核全基因组标记。Evo提供8K和131K上下文长度的预训练模型，适用于从分子到基因组尺度的序列分析和生成任务。研究人员可通过HuggingFace和Together API等多种方式使用Evo，为DNA序列研究提供了强大而灵活的工具。

MoLFormer-XL-both-10pct - 大规模分子语言模型实现化学结构与性质预测

GithubHuggingfaceMoLFormerSMILES分子结构化学模型开源项目机器学习模型

MoLFormer是一个在ZINC和PubChem数据集上训练的化学语言模型，通过处理11亿分子的SMILES表示实现分子特征学习。模型采用线性注意力机制与旋转位置编码，在MoleculeNet的11个基准任务中展现优异性能。该模型可应用于分子相似度分析、特征提取及分子性质预测，适用于200原子以下的小分子研究。

DNABERT_2 - 多物种基因组理解基础模型

DNABERT-2Github人工智能基因组开源项目深度学习生物信息学

DNABERT-2是一个针对多物种基因组理解的高效基础模型。该模型在28个GUE基准任务中表现优异,采用BPE替代k-mer标记化,ALiBi代替位置嵌入,并整合多项技术提升效率。DNABERT-2为基因组分析提供了强大工具,可用于序列分类、元素识别和功能预测等多种任务。

LLM2Vec-Sheared-LLaMA-mntp - 三步实现大模型高效文本编码

GithubHuggingfaceLLM2Vec句子相似度开源项目文本编码无监督对比学习模型自然语言处理

LLM2Vec项目通过简单的三步法，将仅解码的大型语言模型转换为有效的文本编码器。这三步包括启用双向注意力机制、掩蔽下一个词预测和无监督对比学习。经过微调，这个模型能够在文本嵌入、信息检索和句子相似性等自然语言处理应用中取得高效表现。

rf_diffusion_all_atom - 全原子精度蛋白质结构生成工具

GithubRFDiffusion AA分子对接开源项目机器学习结构生物学蛋白质设计

rf_diffusion_all_atom是一个基于AI的蛋白质结构生成工具，实现全原子精度的模型设计。该工具支持小分子结合蛋白和包含特定基序的蛋白质设计，提供简单的安装步骤和使用指南。rf_diffusion_all_atom能够生成自定义蛋白质结构，适用于药物发现和蛋白质工程等研究领域。

mamba-370m-hf - 兼容transformers库的高效语言模型

GithubHuggingfaceMambafinetuningtransformers开源项目模型生成

项目是一种与transformers库兼容的语言模型，整合了config.json和tokenizer，以提高文本生成的速度和准确性。建议安装transformers的最新主版本，以及causal_conv_1d和mamba-ssm，以充分利用优化的cuda内核。该项目支持经典的generate API和PEFT微调，使用float32格式进行微调可获得最佳性能表现，从而提升文本生成任务的效率和质量。项目形成了一种与transformers库兼容的模型环境，通过优化策略实现高效文本生成。

m2m100_1.2B - 先进的多语言机器翻译模型实现百种语言无障碍转换

GithubHuggingfaceM2M100多语言翻译开源项目机器学习模型深度学习自然语言处理

m2m100_1.2B是一款革新性的多语言机器翻译模型，覆盖100种语言的9900个翻译方向。该模型采用编码器-解码器架构，能够实现高质量的直接语言转换，无需中间语言过渡。这一突破性技术为全球跨语言交流提供了高效便捷的解决方案，在机器翻译领域具有重要意义。

h-transformer-1d - 高效序列学习的分层注意力变换器实现

GithubH-Transformer-1DTransformer序列学习开源项目神经网络长程注意力

H-Transformer-1D是一个开源项目，实现了基于分层注意力机制的Transformer模型。这种实现使序列学习达到亚二次方复杂度，在Long Range Arena基准测试中表现优异。项目支持可变序列长度、可逆性和令牌移位等功能，适用于长序列数据处理。该实现主要提供编码器（非自回归）版本，为自然语言处理和机器学习领域提供了新的研究方向。

推荐项目

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

吐司

探索Tensor.Art平台的独特AI模型，免费访问各种图像生成与AI训练工具，从Stable Diffusion等基础模型开始，轻松实现创新图像生成。体验前沿的AI技术，推动个人和企业的创新发展。

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com