访谈的无障碍转录
aTrain是一款利用最先进的机器学习模型自动转录语音录音的工具,无需上传任何数据。它由格拉茨大学商业分析和数据科学中心的研究人员开发,并由格拉茨Know-Center的研究人员进行测试。
重大新闻!介绍aTrain的论文已在《行为与实验金融学杂志》上发表。如果您在研究中使用了aTrain,请引用已发表的论文:乘坐aTrain。介绍一个用于访谈无障碍转录的界面。
Windows(10和11)用户可以通过Microsoft应用商店(链接)安装aTrain,或从BANDAS中心网站下载安装程序(链接)。
对于Linux用户,请按照我们Wiki中的说明进行操作。
安装和演示视频可以在这里找到。
aTrain提供以下优势:
快速准确 🚀 aTrain为OpenAI的Whisper模型的faster-whisper实现提供了用户友好的访问,确保了一流的转录质量(参见Wollin-Geiring等人2023),同时在您的本地计算机上实现更高的速度。在选择最高质量模型的情况下,在当前中端商务笔记本电脑常见的移动CPU(如第12代Core i5、Ryzen 6000系列)上,转录时间仅为音频长度的约三倍。
说话人检测 🗣️ aTrain具有基于pyannote.audio的说话人检测模式,可以分析每个文本段落以确定其所属的说话人。
隐私保护和GDPR合规 🔒 aTrain在您自己的设备上完全离线处理提供的语音录音,不会将录音或转录内容发送到互联网。这有助于研究人员遵守道德准则或法律要求(如GDPR)所产生的数据隐私要求。
多语言支持 🌍 aTrain可以处理以下57种语言的语音录音:南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语。
兼容MAXQDA、ATLAS.ti和NVivo的输出 📄 aTrain提供的转录文件可以无缝导入最流行的定性分析工具ATLAS.ti、MAXQDA和NVivo。这使您可以通过点击时间戳直接播放相应文本段落的音频。请查看教程。
Nvidia GPU支持 🖥️ aTrain可以在CPU或NVIDIA GPU上运行(需要安装CUDA工具包)。支持CUDA的NVIDIA GPU显著提高了转录和说话人检测的速度,在当前入门级游戏笔记本电脑上可将转录时间缩短至音频长度的20%。
截图1 | 截图2 |
---|---|
基准测试
为了测试aTrain-core的处理时间,我们转录了Christine Lagarde和Andrea Enria在2023年第五届欧洲央行银行监管论坛上的对话,该视频由欧洲中央银行在YouTube上以创意共享许可发布,下载为320p MP4视频文件。该文件的持续时间正好为22分钟,并在启用说话人检测的情况下在不同的计算设备上进行了转录。下图显示了每次转录的处理时间。
00:22:00文件的转录时间:
计算设备 | large-v3 | Distil large-v3 |
---|---|---|
CPU: Ryzen 6850U | 00:33:02 | 00:13:30 |
CPU: Apple M1 | 00:33:15 | 00:21:40 |
CPU: Intel i9-10940X | 00:10:25 | 00:04:36 |
GPU: RTX 2080 Ti | 00:01:44 | 00:01:06 |
系统要求
完全支持Windows。
Debian支持手动安装Wiki说明
目前不支持MacOS。
如果您想使用Windows Server,请确保安装了WebView2: https://developer.microsoft.com/en-us/microsoft-edge/webview2/#download
用户安装 😎
只需从Microsoft应用商店获取安装程序 https://apps.microsoft.com/store/detail/atrain/9N15Q44SZNS2
开发者安装 ⚙️
您需要Python >=3.10 如果您需要帮助安装,请查看以下资源: https://www.python.org/downloads/release/python-31011/
设置虚拟环境
python -m venv venv
激活虚拟环境
.\venv\Scripts\activate
安装aTrain
pip install aTrain@git+https://github.com/JuergenFleiss/aTrain.git --extra-index-url https://download.pytorch.org/whl/cu118
使用控制台脚本下载ffmpeg和Whisper及pyannote.audio的所有必需模型 注意:Microsoft商店中的用户版本已包含这些资产。
aTrain init
使用控制台脚本运行应用程序
aTrain start
如何构建独立可执行文件 📦
我们使用pyinstaller来冻结aTrain的代码并创建独立可执行文件。 如果您想创建自己的代码包,请按照以下步骤操作:
克隆并以可编辑模式安装aTrain
git clone https://github.com/JuergenFleiss/aTrain.git
cd aTrain
pip install -e . --extra-index-url https://download.pytorch.org/whl/cu118
使用控制台脚本下载ffmpeg和Whisper及pyannote.audio的所有必需模型
aTrain init
安装pyinstaller
pip install pyinstaller
使用文件"build.spec"中提供的说明构建可执行文件
pyinstaller build.spec
恭喜!您刚刚为aTrain构建了一个独立可执行文件。
要打开这个版本的aTrain,只需转到输出文件夹(./dist/aTrain)并打开可执行文件(例如Windows下的aTrain.exe)。
如果您想更进一步,为aTrain创建MSIX安装程序,可以使用Advanced Installer Express。 有关如何使用Advanced Installer Express的信息,请参阅其文档。