餐巾纸上的数学

这个项目的目标是收集软件、数字和技术,从第一原理快速估计系统的预期性能。例如,你能多快读取1 GB内存?通过组合这些资源,你应该能够回答有趣的问题,例如:对于每秒100,000个请求的应用程序,你预计需要支付多少存储成本用于记录日志?

学习这项技能的最佳入门方式是通过我在SRECON的演讲。

在计算机领域广泛实践餐巾纸数学的最佳方式是解决自己的问题。次优方法是订阅这份新闻通讯,你将在接下来的几周内获得一个问题来练习。随着你对这些技术的熟练程度提高,每个问题的解决时间应该只需要几分钟。

可以用来练习的问题归档在这里。解决方案将在下一期新闻通讯中提供。

数字

以下数字来自在3.4GHz Intel Xeon E-2236处理器(12个虚拟核心)上进行的测试,已经四舍五入。

注意1: 某些吞吐量和延迟数字不太吻合,这是为了便于计算而刻意为之。

注意2: 请谨慎对待这些数字。例如对于I/O,fio是目前最先进的测试工具。我会不断更新这些数字,以提高准确性并反映硬件的改进。

操作	延迟	吞吐量	1 MiB	1 GiB
顺序内存读写(64字节)	0.5 ns
├ 单线程, 无SIMD		10 GiB/s	100 μs	100 ms
├ 单线程, SIMD		20 GiB/s	50 μs	50 ms
├ 多线程, 无SIMD		30 GiB/s	35 μs	35 ms
├ 多线程, SIMD		35 GiB/s	30 μs	30 ms
同区域网络		10 GiB/s	100 μs	100 ms
├ 在VPC内		10 GiB/s	100 μs	100 ms
├ 在VPC外		3 GiB/s	300 μs	300 ms
哈希, 非加密安全(64字节)	25 ns	2 GiB/s	500 μs	500 ms
随机内存读写(64字节)	50 ns	1 GiB/s	1 ms	1s
快速序列化 `[8]` `[9]` †	N/A	1 GiB/s	1 ms	1s
快速反序列化 `[8]` `[9]` †	N/A	1 GiB/s	1 ms	1s
系统调用	500 ns	N/A	N/A	N/A
哈希, 加密安全(64字节)	500 ns	200 MiB/s	10 ms	10s
顺序SSD读取(8 KiB)	1 μs	4 GiB/s	200 μs	200 ms
上下文切换 `[1] [2]`	10 μs	N/A	N/A	N/A
顺序SSD写入, -fsync (8KiB)	10 μs	1 GiB/s	1 ms	1s
TCP Echo服务器 (32 KiB)	10 μs	4 GiB/s	200 μs	200 ms
解压缩 `[11]`	N/A	1 GiB/s	1 ms	1s
压缩 `[11]`	N/A	500 MiB/s	2 ms	2s
顺序SSD写入, +fsync (8KiB)	1 ms	10 MiB/s	100 ms	2 min
排序(64位整数)	N/A	200 MiB/s	5 ms	5s
顺序HDD读取(8 KiB)	10 ms	250 MiB/s	2 ms	2s
Blob存储同区域, 单文件	50 ms	500 MiB/s	2 ms	2s
Blob存储同区域, 多文件	50 ms	网络限制
随机SSD读取(8 KiB)	100 μs	70 MiB/s	15 ms	15s
序列化 `[8]` `[9]` †	N/A	100 MiB/s	10 ms	10s
反序列化 `[8]` `[9]` †	N/A	100 MiB/s	10 ms	10s
代理: Envoy/ProxySQL/Nginx/HAProxy	50 μs	?	?	?
同区域网络	250 μs	2 GiB/s	500 μs	500 ms
同区域/VPC内高级网络	250 μs	25 GiB/s	50 μs	40 ms
{MySQL, Memcached, Redis, ..} 查询	500 μs	?	?	?
随机HDD读取(8 KiB)	10 ms	0.7 MiB/s	2 s	30m
跨区域网络 `[6]`	浮动	25 MiB/s	40 ms	40s
美国中部 <-> 东部网络	25 ms	25 MiB/s	40 ms	40s
美国中部 <-> 西部网络	40 ms	25 MiB/s	40 ms	40s
美国东部 <-> 西部网络	60 ms	25 MiB/s	40 ms	40s
欧洲西部 <-> 美国东部网络	80 ms	25 MiB/s	40 ms	40s
欧洲西部 <-> 美国中部网络	100 ms	25 MiB/s	40 ms	40s
美国西部 <-> 新加坡网络	180 ms	25 MiB/s	40 ms	40s
欧洲西部 <-> 新加坡网络	160 ms	25 MiB/s	40 ms	40s

†: "快速序列化/反序列化"通常是一种简单的线路协议,只是转储字节,或一个非常高效的环境。通常标准序列化如JSON将是较慢的。我们在这里包含这两者,因为序列化/反序列化是一个非常广泛的话题,根据数据和实现的不同,性能特征会极其不同。

您可以使用./run运行它以达到正确的优化级别。在调试模式下编译时,您无法获得正确的数字。您可以通过添加新的套件并填写空白来帮助这个项目。这是一个英语到中文的翻译，请提供以下源文本的中文翻译。

注意：翻译需要符合中文语序、流程和通顺。

**注意:**我目前正在将基准测试移植到Criterion.rs,所以有些在bench/中。你可以通过取消注释./run中的相关行来运行它们。

我知道这个套件存在一些低效之处。我打算提高自己在这方面的技能,以确保数字是生产环境中你可能能挤出的上限性能。我认为它们偏差不会超过2-3倍,这对大多数用户来说应该不是问题。

成本数字

云供应商之间应该保持一致的大致数字。

类型	数量	月费	1年预留(每月)	竞价(每月)	竞价(每小时)
CPU	1	$15	$10	$2	$0.005
GPU	1	$5000	$3000	$1500	$2
内存	1 GB	$2	$1	$0.2	$0.0005
存储
├ 仓库存储	1 GB	$0.02
├ Blob (S3, GCS)	1 GB	$0.02
├ 区域 HDD	1 GB	$0.05
├ 临时 SSD	1 GB	$0.08	$0.05	$0.05	$0.07
├ 区域 SSD	1 GB	$0.2
├ 区域 SSD	1 GB	$0.35
网络
├ 同区	1 GB	$0
├ Blob	1 GB	$0
├ 入口	1 GB	$0
├ L4 LB	1 GB	$0.008
├ 跨区	1 GB	$0.01
├ 跨区域	1 GB	$0.02
├ 公网出口	1 GB	$0.1
CDN 出口	1 GB	$0.05
CDN 填充	1 GB	$0.01
仓库查询	1 GB	$0.005
日志/跟踪	1 GB	$0.5
指标	1000	$20

压缩比

这来自几个来源。注意压缩速度(但通常不是比率)根据算法和压缩级别(速度和压缩比之间的权衡)而有一个数量级的差异。

我通常假定另一个 _x 压缩比会降低 10x 的性能。例如,我们可以在英文维基百科上获得 2x 的比率速度约 200 MiB/s,3x 约 20 MiB/s,4x 约 1 MB/s。

项目	压缩比
HTML	2-3x
英文	2-4x
源代码	2-4x
可执行文件	2-3x
RPC	5-10x
SSL	-2%

技术

不要过于复杂。 如果您的计算基于6个以上的假设,那么您可能让它比应该的更难。
保留单位。 它们是良好的校验和。 Wolframalpha 在需要转换例如KiB到TiB时提供出色的支持。
用指数计算。 很多信封计算只用系数和指数,例如 c * 10^e。你的目标是在数量级上得到正确结果 - 这只需要 e。c要小得多。只关注单位数字指数使用纸巾计算它更容易(更不用提避免写太多零)。
进行Fermi分解。 写下你能猜到的事情,直到你能开始暗示答案。当你想知道日志存储的成本时,你需要知道日志行的大小、每秒有多少行、这需要多少成本等等。