注意:由于此代码库包含子模块,因此在克隆时需要使用 --recursive
标志,例如:git clone git@github.com:nevillegrech/gigahorse-toolchain.git --recursive
Gigahorse 二进制提升器和工具链
一个从低级 EVM 代码到高级基于函数的三地址表示的二进制提升器(及相关框架),类似于 LLVM IR 或 Jimple。
快速入门
从本地克隆运行/安装 Gigahorse(需要 souffle
)
首先确保你的系统上安装了以下内容:
-
Boost 库(可以在 Debian 上使用
apt install libboost-all-dev
安装) -
Python 3.8(参考标准文档)
-
Souffle 2.3 或 2.4(我们仅使用发布版本进行测试,较新的开发版本可能可用但未经我们测试。参考 Souffle 文档。最简单的安装方法是使用 https://github.com/souffle-lang/souffle/releases/tag/2.3 的发布版本)
现在安装 Souffle 自定义函数:
cd souffle-addon && make # 构建所有内容,将 libfunctors.so 设置为 libsoufflenum.so 的链接
现在你应该可以运行 Gigahorse 了。
通过 docker 安装 Gigahorse
或者,你可以使用我们预构建的 docker 镜像,按照以下说明使用 Gigahorse:
-
对于 amd64:
curl -s -L https://raw.githubusercontent.com/nevillegrech/gigahorse-toolchain/master/scripts/docker/install/install_amd64 | bash
对于 arm64/m1(未积极测试):
curl -s -L https://raw.githubusercontent.com/nevillegrech/gigahorse-toolchain/master/scripts/docker/install/install_arm64 | bash
-
然后
source ~/.bashrc
-
使用
gigahorse --help
检查 gigahorse 是否可用
运行 Gigahorse
gigahorse.py
脚本可以单独在一个合约上运行,也可以在指定目录中的一系列合约字节码文件上运行。它将对每个合约运行 logic/main.dl
中实现的二进制提升器,然后可选地运行用户使用 -C
标志指定的任何其他客户端分析。
默认管道首先尝试使用事务性上下文敏感配置反编译合约。如果超时,它会使用可扩展回退配置(使用混合精确上下文敏感算法,针对可扩展性进行调优)进行第二次尝试。此外,如果默认配置成功但产生不精确的输出,则使用精确回退配置(当前与 --early_cloning
配置相同)尝试消除这种不精确性。如果需要,可以使用 --disable_scalable_fallback
和 --disable_precise_fallback
标志分别禁用这两种回退配置。
Gigahorse 管道还包括几轮小函数内联,以帮助后续客户端库获得更高级的推断。可以使用 --disable_inline
禁用内联功能。
每个合约的预期文件格式为 .hex 格式。
示例(单个合约):
./gigahorse.py examples/long_running.hex
(对于某些 Souffle 版本,在首次编译期间,你会收到关于 libsoufflenum.so 动态库的错误消息。你可以忽略这个,重新运行后 gigahorse.py 应该可以正常工作。)
分析时间过长的合约将在可配置的超时后被跳过。
反编译结果放置在 .temp
目录中,而有关执行的元数据(如指标)放置在 results.json
文件中,以三元组列表的形式:
[文件名, 属性, 标志]
这里,属性
是文件名中检测到的合约问题列表,
datalog 文件中任何非空的输出关系的关系名称都将放在这个列表中。
标志
是一个表示辅助或异常信息的列表。它可能包括
"ERROR"
和 "TIMEOUT"
,这些是不言自明的。
使用 gigahorse.py --help
获取调用说明。
示例(带客户端分析):
./gigahorse.py -j <作业数> -C clients/visualizeout.py <合约>
(跟在"-C"标志后面的客户端可以是以逗号分隔的列表,不含空格,包含可通过路径访问或完全限定的文件名。)
Gigahorse 还可以在"批量分析"模式下使用,方法是将
有关调整 Gigahorse 框架的其他说明,请参阅 Advanced.md。
提升后 IR 的文本表示
客户端分析工具 clients/visualizeout.py
可用于提供 Gigahorse 生成的 IR 的美化打印文本表示。
美化打印的文本文件命名为 contract.tac
,将放置在每个分析合约的 out/
文件夹中。
例如,./gigahorse.py -C clients/visualizeout.py examples/long_running.hex
的输出将被放置在 .temp/long_running/out/contract.tac
中。
contract.tac
中可视化的块看起来像这样:
Begin block 0x3e
prev=[0xb], succ=[0x10ee, 0x49]
=================================
0x3f: v3f(0xf42fdfb) = CONST
0x44: v44 = EQ v3f(0xf42fdfb), v32
0x10c7: v10c7(0x10ee) = CONST
0x10c8: JUMPI v10c7(0x10ee), v44
请注意,美化打印的变量标识符与底层 datalog 事实中的标识符不对应。
编写客户端分析
客户端分析可以用任何语言编写,通过读取反编译步骤(main.dl
)写入的关系文件。然而,该框架为用 Datalog 编写的客户端提供了优先处理。Gigahorse 框架最著名的客户端分析示例是 MadMax。它使用了 clientlib 下的几个"分析客户端库"。这些库包括可定制的数据流分析、内存建模、数据结构重构等。
反编译字节码的客户端分析常用模板是创建包含 clientlib/decompiler_imports.dl
的 souffle datalog 文件,例如:
#include "clientlib/decompiler_imports.dl"
.output ...
Gigahorse 的用途
Gigahorse 工具链最初发表为:
- Grech, N., Brent, L., Scholz, B., Smaragdakis, Y. (2019),Gigahorse:智能合约的全面、声明式反编译。第 41 届 ACM/IEEE 国际软件工程会议。
原始发布后 Gigahorse 的几项新发展已发表为:
- Grech, N., Lagouvardos, S., Tsatiris, I., Smaragdakis, Y. (2022),Elipmoc:以太坊智能合约的高级反编译 ACM 编程语言论文集(OOPSLA)。
此外,其他研究工具也在 Gigahorse 的基础上开发,包括:
-
Grech, N., Kong, M., Jurisevic, A., Brent, L., Scholz, B., Smaragdakis, Y. (2018),MadMax:在以太坊智能合约中应对 Out-of-Gas 情况。ACM 编程语言论文集(OOPSLA)。
-
Brent, L., Grech, N., Lagouvardos, S., Scholz, B., Smaragdakis, Y. (2020),Ethainter:复合漏洞的智能合约安全分析器。 第 41 届 ACM SIGPLAN 编程语言设计与实现会议。
-
Lagouvardos, S., Grech, N., Tsatiris, I., Smaragdakis, Y. (2020) 以太坊"内存"的精确静态建模。ACM 编程语言论文集(OOPSLA)。
-
Grech, N., Kong, M., Jurisevic, A., Brent, L., Scholz, B., Smaragdakis, Y. (2020),分析智能合约的 Out-of-Gas 世界。ACM 通讯。
-
Smaragdakis, Y., Grech, N., Lagouvardos, S., Triantafyllou, K., Tsatiris, I. (2021),符号值流静态分析:以太坊智能合约的深度、精确、完整建模。ACM 编程语言论文集(OOPSLA)。
Gigahorse 框架还支撑着 contract-library.com 的实时反编译器和分析工具。