开源项目关键性评分(测试版)
本项目由关键项目安全工作组的成员维护。
目标
-
为每个开源项目生成关键性评分。
-
创建一个开源社区所依赖的关键项目列表。
-
利用这些数据主动改善这些关键项目的安全状况。
关键性评分
项目的关键性评分定义了该项目的影响力和重要性。它是一个介于**0(最不关键)和1(最关键)**之间的数字。评分基于Rob Pike提出的以下算法:
我们使用以下默认参数来计算开源项目的关键性评分:
参数 (Si) | 权重 (αi) | 最大阈值 (Ti) | 描述 | 理由 |
---|---|---|---|---|
created_since | 1 | 120 | 项目创建至今的时间(月) | 较老的项目更有可能被广泛使用或被依赖。 |
updated_since | -1 | 120 | 项目最后更新至今的时间(月) | 无人维护且近期没有提交的项目更可能较少被依赖。 |
contributor_count | 2 | 5000 | 项目贡献者数量(有提交记录) | 不同贡献者的参与表明项目的重要性。 |
org_count | 1 | 10 | 贡献者所属的不同组织数量 | 表明跨组织依赖。 |
commit_frequency | 1 | 1000 | 过去一年每周平均提交次数 | 较高的代码变更略微表明项目的重要性。同时,也更容易出现漏洞。 |
recent_releases_count | 0.5 | 26 | 过去一年的发布次数 | 频繁发布表明用户依赖。权重较低,因为并非总是使用。 |
closed_issues_count | 0.5 | 5000 | 过去90天关闭的问题数量 | 表明高度的贡献者参与和解决用户问题的关注度。权重较低,因为依赖于项目贡献者。 |
updated_issues_count | 0.5 | 5000 | 过去90天更新的问题数量 | 表明高度的贡献者参与。权重较低,因为依赖于项目贡献者。 |
comment_frequency | 1 | 15 | 过去90天每个问题的平均评论数 | 表明高用户活跃度和依赖度。 |
dependents_count | 2 | 500000 | 提交信息中提到该项目的次数 | 表明仓库的使用情况,通常出现在版本更新中。该参数适用于所有语言,包括没有包依赖图的C/C++(虽然有点取巧)。计划在不久的将来添加包依赖树。 |
注意:
- 您可以在运行时覆盖这些默认值,如下所述。
- 我们正在寻求社区的想法来改进这些参数。
- 个别推理规则总会有例外情况。
使用方法
$ go install github.com/ossf/criticality_score/v2/cmd/criticality_score@latest
$ export GITHUB_TOKEN=... # 需要GitHub令牌才能工作
$ gcloud auth login --update-adc # 可选,添加 -depsdev-disable 以跳过
$ criticality_score -gcp-project-id=[您的项目ID] https://github.com/kubernetes/kubernetes
repo.name: kubernetes
repo.url: https://github.com/kubernetes/kubernetes
repo.language: Go
repo.license: Apache License 2.0
legacy.created_since: 87
legacy.updated_since: 0
legacy.contributor_count: 3999
legacy.watchers_count: 79583
legacy.org_count: 5
legacy.commit_frequency: 97.2
legacy.recent_releases_count: 70
legacy.updated_issues_count: 5395
legacy.closed_issues_count: 3062
legacy.comment_frequency: 5.5
legacy.dependents_count: 454393
default_score: 0.99107
可以通过使用 -scoring-config
参数并提供不同的配置文件来指定如何计算分数,从而更改分数。
默认情况下,使用 original_pike.yml
配置来计算分数。但是,可以提供其他配置文件以产生不同的分数。更多信息请参见 config/scorer。
欢迎复制其中一个配置并调整权重和阈值以满足您的需求。
身份验证
在运行临界性评分之前,您需要:
- 对于 GitHub 仓库,您需要创建 GitHub 访问令牌并将其设置在环境变量
GITHUB_AUTH_TOKEN
中。这有助于避免未经身份验证的请求受到 GitHub 的API 速率限制。
# 对于 POSIX 平台,如 Linux、Mac:
export GITHUB_AUTH_TOKEN=<您的访问令牌>
# 对于 Windows:
set GITHUB_AUTH_TOKEN=<您的访问令牌>
格式化结果
目前有三种格式:text
、json
和 csv
。将来可能会添加其他格式。
可以使用 -format
标志指定这些格式。
其他命令
临界性评分项目还有其他用于生成和处理临界性评分数据的命令。
enumerate_github
:一个用于准确收集具有最小星标数的 GitHub 仓库集的工具collect_signals
:一个利用 Scorecard 项目基础设施大规模收集原始信号的工作程序scorer
:一个基于输入 CSV 文件重新计算临界性评分的工具
公开数据
如果您有兴趣查看带有临界性评分的关键项目列表,我们以 csv
格式和 BigQuery 数据集发布它们。
这些数据是使用在 GCP 上运行的临界性评分项目的生产实例生成的。有关如何部署的详细信息可以在 infra 目录中找到。
注意:目前,这些列表仅从托管在 GitHub 上的项目派生而来。我们计划在不久的将来扩展它们,以考虑托管在其他源代码控制系统上的项目。
CSV 数据
数据可在 Google Cloud Storage 上获取,可以通过以下方式下载:
- 网页浏览器:commondatastorage.googleapis.com/ossf-criticality-score/index.html
gsutil
命令行工具:gsutil ls gs://ossf-criticality-score/
BigQuery 数据集
这些数据可在公共 BigQuery 数据集中获取。
使用 GCP 帐户,您可以在数据中运行查询。例如,以下是一个返回按分数排序的前 100 个仓库的查询:
SELECT repo.url, default_score
FROM `openssf.criticality_score_cron.criticality-score-v0-latest`
ORDER BY default_score DESC
LIMIT 100;
贡献
如果您想参与或有想讨论的想法,我们在 Securing Critical Projects WG 会议中讨论这个项目。 请查看社区日历以获取日程安排和会议邀请。
有关如何贡献的指导,请参阅贡献文档。