新冠疫情严重程度预测
用于预测美国各县和医院新冠疫情严重程度的数据和模型(每日更新)。数据包括确诊病例/死亡人数、人口统计、风险因素、社交距离数据等众多信息。
目录
概述 •
快速入门 •
致谢
资源
数据CSV文件 •
论文 •
网站 •
建模文档 •
仪表盘代码
概述
注:本仓库持续维护中 - 如有任何问题,请提交 issue。
- **[数据](https://github.com/Yu-Group/covid19-severity-prediction/blob/master/./data/readme.md**(每日更新):我们已清理、合并并记录了来自各种公共来源的大量医院和县级数据,以协助抗击新冠疫情的数据科学工作。
- 在医院层面,数据包括医院位置、ICU 床位数、员工总数、医院类型和联系信息
- 在县级层面,我们的数据包括社会经济因素、社交距离评分,以及来自 USA Facts 和 NYT 的新冠病例/死亡数据
- 可轻松下载为[处理过的 CSV 文件](https://github.com/Yu-Group/covid19-severity-prediction/blob/master/./data/county_data_abridged.csv 或完整数据处理流程
- 详细文档可在[此处](https://github.com/Yu-Group/covid19-severity-prediction/blob/master/./data/list_of_columns.md 查看
- 论文链接:"整理新冠数据库并预测美国各县死亡人数"
- 项目网站:http://covidseverity.com/
- **[建模](https://github.com/Yu-Group/covid19-severity-prediction/blob/master/./modeling/readme.md**:使用这些数据,我们开发了一个短期(3-5 天)的县级死亡率预测模型。该模型通过加权平均结合了特定县的指数增长模型和共享的指数增长模型,其中权重取决于过去的预测准确性。
- 严重程度指数:新冠疫情严重程度指数(CPSI)旨在帮助医疗资源分配到各医院。它有三个值(3:高,2:中,1:低),表示某天某医院新冠疫情的严重程度。计算分为三个步骤:
- 对县级死亡人数进行预测建模
- 将县级预测按各医院员工总数的比例分配到县内医院
- 最终值通过对医院累计预测死亡人数(=当前记录死亡人数 + 预测未来死亡人数)进行阈值处理确定
数据和模型快速入门
可以通过以下方式下载、加载和合并数据:
import load_data
# 首次运行时,下载并缓存数据
df = load_data.load_county_level(data_dir='/path/to/data')
- 更多数据详情,请参见 [./data/readme.md](https://github.com/Yu-Group/covid19-severity-prediction/blob/master/./data/readme.md
- 另请参阅[快速入门笔记本](https://github.com/Yu-Group/covid19-severity-prediction/blob/master/quickstart.ipynb
- 我们持续监控并添加新的数据源(+ 相关数据新闻在此)
- 每日更新的运行输出存储[在此](https://github.com/Yu-Group/covid19-severity-prediction/blob/master/./functions/update_test.log
要获取我们当前表现最佳模型的死亡预测,最简单的方法是调用
add_preds
函数(有关更多详细信息,请参见./modeling/readme.md)
from modeling.fit_and_predict import add_preds
df = add_preds(df, NUM_DAYS_LIST=[1, 3, 5]) # 添加诸如"1天预测死亡数"、"3天预测死亡数"等键
# NUM_DAYS_LIST 是未来预测天数的列表
相关的县级项目
致谢
加州大学伯克利分校统计系和电气工程与计算机科学系,由Bin Yu教授领导(小组成员按姓氏字母顺序排列)
- Yu小组团队(数据/建模):Nick Altieri, Rebecca Barter, James Duncan, Raaz Dwivedi, Karl Kumbier, Xiao Li, Robbie Netzorg, Briton Park, Chandan Singh(学生负责人), Yan Shuo Tan, Tiffany Tang, Yu Wang
- 暑期团队:Abhineet Agarwal, Maya Shen, Danqing Wang, Chao Zhang
- Response4Life(组织/分发)团队和志愿者,特别是Don Landwirth和Rick Brennan
- 医疗团队(从医学角度提供建议):Roger Chaufournier, Aaron Kornblith, David Jaffe
- 医院信息收集:Matthew Shen, Anthony Rio, Miles Bishop, Josh Davis, 和 Dylan Goetting
- Kolak小组团队(地理空间可视化):Qinyun Lin
- 来自谷歌的支持:Cat Allman 和 Peter Norvig
- Shen小组团队(工业工程与运筹学):Junyu Cao, Shunan Jiang, Pelagie Elimbi Moudio
- 来自许多人的有益意见,包括:SriSatish Ambati, Rob Crockett, Tina Elassia-Rad, Marty Elisco, Nick Jewell, Valerie Isham, Valerie Karplus, Andreas Lange, Ying Lu, Samuel Scarpino, Jas Sekhon, Phillip Stark, Jacob Steinhardt, Suzanne Tamang, Brian Yandell, Tarek Zohdi
- 感谢AWS和Google的支持
- 此外,我们还要感谢我们的数据来源,可以在数据说明中找到
如需引用,请引用本文:
@article{altieri2020Curating,
journal = {Harvard Data Science Review},
doi = {10.1162/99608f92.1d4e0dae},
note = {https://hdsr.mitpress.mit.edu/pub/p6isyf0g},
title = {Curating a COVID-19 Data Repository and Forecasting County-Level DeathCounts in the United States},
url = {https://hdsr.mitpress.mit.edu/pub/p6isyf0g},
author = {Altieri, Nick and Barter, Rebecca L and Duncan, James and Dwivedi, Raaz and Kumbier, Karl and Li, Xiao and Netzorg, Robert and Park, Briton and Singh, Chandan and Tan, Yan Shuo and Tang, Tiffany and Wang, Yu and Zhang, Chao and Yu, Bin},
date = {2020-11-03},
year = {2020},
month = {11},
day = {3},
}