biomedical

生物医学数据集库促进机器学习研究

BigBIO 生物医学数据集自然语言处理机器学习数据标准化 Github 开源项目

BigBIO是一个基于Huggingface datasets库开发的生物医学数据加载器库。该项目提供超过126个生物医学数据集的轻量级访问，覆盖10余种语言和12个任务类别。BigBIO致力于提高数据处理的可重复性，完善数据集来源和许可等属性的文档，并简化自然语言提示和多任务学习的元数据集生成。此外，BigBIO还支持多个主流英语生物医学基准测试中的大部分数据集。

访问官网

Github

Huggingface

介绍相关项目

pubmedbert-base-embeddings - 专为医学文献优化的嵌入模型支持语义搜索和RAG应用

GithubHuggingfacePubMedBERT医学文献嵌入向量开源项目模型自然语言处理语义搜索

PubMedBERT Embeddings是一个专门针对医学文献优化的嵌入模型。它基于PubMedBERT进行微调，将句子和段落映射到768维向量空间。该模型在PubMed标题-摘要对上训练，相比通用模型能为医学文献生成更高质量的嵌入向量。它支持聚类、语义搜索等应用，可通过txtai、Sentence-Transformers或Hugging Face Transformers等框架轻松集成。在多个PubMed相关评估数据集上，该模型展现出优秀的性能表现。

MedTrinity-25M - 多粒度标注医学数据集推动医疗AI进步

GithubMedTrinity-25M医学数据集多模态多粒度标注大规模开源项目

MedTrinity-25M是一个大规模医学多模态数据集，包含2500万条多粒度标注。该数据集整合了医学图像和文本信息，采用创新处理流程和先进语言模型生成精细描述。它显著提升了医学视觉问答性能，为医疗AI发展提供重要资源。项目还开源了相关模型和代码，推动医学AI领域的开放协作。

deid_roberta_i2b2 - RoBERTa模型用于医疗记录去标识化

GithubHIPAAHuggingfaceI2B2RoBERTa医疗记录去标识化开源项目模型自然语言处理

这是一个基于RoBERTa的序列标注模型，专门用于医疗记录去标识化。模型能识别11种受保护健康信息类型，采用BILOU标记方案。在I2B2 2014数据集上训练后，可自动从医疗记录中移除敏感信息。项目提供了使用说明、数据格式要求和示例代码，便于快速应用。

awesome-healthcare - 精选开源医疗软件和资源列表

FHIRGithub健康信息系统医学影像开源医疗软件开源项目电子健康记录

awesome-healthcare汇集了精选的开源医疗软件、库和资源。涵盖电子健康记录、医学影像、处方系统等多个领域的高质量项目。所有链接均经审核，确保项目活跃且实用。面向医疗机构、服务提供者、开发者、政策专家和研究人员，促进医疗信息技术的创新与共享。

medspacy - 临床NLP工具库，提供多语言支持和多功能文本处理

GithubmedspaCyspaCy临床文本处理医学NLP开源项目自然语言处理

medspacy是一款基于spaCy框架的临床NLP工具库，提供句子分割、上下文分析、属性识别和章节检测等模块化功能。它适用于临床文本的处理和分析，支持多语言并鼓励扩展更多语言规则。各模块可独立使用，包括概念提取、实体后处理和数据可视化等功能。

MedicalGPT - 优化医疗GPT模型，提升医疗对话系统的响应与精确性

GithubMedicalGPT医患对话医疗大模型开源项目强化学习微调

MedicalGPT项目采用多阶段方法如增量预训练、精细微调及奖励建模强化学习，优化医疗GPT模型，增强医疗对话与问答系统的性能。模型以人类反馈为基础，通过直接偏好优化和强化学习策略，调整生成对话的质量与人类偏好的契合度，提供科学准确的医疗咨询，项目持续接入先进的医疗语言处理技术，应对医疗领域的需求变化。

bioicons - 科学插图矢量图标开源库

BioiconsGithub开源图标库开源项目矢量图形科学插图贡献指南

Bioicons是科学插图矢量图标开源库，支持快速复制下载，适用于主流矢量图形软件。图标可自由编辑，满足个性化需求。项目欢迎贡献，为生命科学提供高质量可扩展图形资源，简化插图创作流程。

WellcomeBertMesh - 基于PubMedBERT的生物医学文献主题分类模型

GithubHuggingfacePubMedBert医学分类开源项目文本分析机器学习模型生物医学

WellcomeBertMesh是一款由WellcomeTrust开发的生物医学文本分类模型，基于最新的PubMedBERT架构，专门用于为生物医学文献和研究基金分配MeSH主题标签。该模型采用多标签注意力机制，在2.2百万篇PubMed文献上训练，实现了63%的微观F1分数。该模型可应用于研究基金申请审核和生物医学文献分类等领域的主题标注工作。

LLMDataHub - 大语言模型训练数据集合

GithubLLMDataHub大语言模型开源社区开源项目数据集聊天机器人

LLMDataHub汇聚高品质大语言模型训练数据，为研究人员和从业者提供丰富的数据资源。该平台涵盖多种数据集，适合提升聊天机器人对话质量、应答生成及语言理解。同时，平台更新最新数据集，助您获取行业前沿资源。

Medical-NER - DeBERTa微调的医学命名实体识别模型

DeBERTaGithubHuggingfaceNER模型token-classification医学数据集医疗实体识别开源项目模型

该模型基于DeBERTa在PubMED数据集上微调，可识别41种医学实体，如诊断、症状和治疗。它利用先进的自然语言处理技术从医疗文本中准确提取关键信息，支持临床决策和医学研究。模型可通过Hugging Face推理API或transformers库轻松使用，为医疗信息处理提供了便捷工具。

相关项目

项目侧边栏1

项目侧边栏2

推荐项目

Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手，通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能，支持100+编程语言，与主流编辑器无缝集成，显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台，能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐，Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案，通过智能技术简化视频制作流程。无论是企业宣传还是个人分享，有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持，能够阅读和理解用户上传的文件内容，解析网页信息，并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题，Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术，为商家提供一键生成商品图和营销文案的服务，显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台，让商品第一时间被种草。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器，它将改变您观看视频的方式！SubCat结合了先进的人工智能技术，为您提供即时视频字幕翻译，无论是本地视频还是网络流媒体，让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台，利用前沿AI技术，为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图，再到文案生成，美间让创意设计更简单、更高效。

Project Cover

AIWritePaper论文写作

AIWritePaper论文写作是一站式AI论文写作辅助工具，简化了选题、文献检索至论文撰写的整个过程。通过简单设定，平台可快速生成高质量论文大纲和全文，配合图表、参考文献等一应俱全，同时提供开题报告和答辩PPT等增值服务，保障数据安全，有效提升写作效率和论文质量。

Project Cover

稿定AI

稿定设计是一个多功能的在线设计和创意平台，提供广泛的设计工具和资源，以满足不同用户的需求。从专业的图形设计师到普通用户，无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑，稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合，帮助用户轻松实现创意设计。

使用协议隐私政策广告服务

投诉举报邮箱: service@vectorlightyear.com

@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号