Project Icon

talk-llama-fast

开源AI语音对话系统 支持多语言实时交互及视频生成

talk-llama-fast是一个开源的AI语音对话系统,支持实时语音识别、自然语言生成和语音合成,可进行多语言交互。系统集成了视频生成功能,能创建与音频同步的唇形动画。采用流式处理和激进VAD等优化技术,实现低延迟响应。提供多种语音命令和中断机制,增强交互体验。适用于开发AI助手、虚拟角色等应用。

talk-llama-fast

基于 talk-llama https://github.com/ggerganov/whisper.cpp 俄语视频指南(俄语指南,英语字幕):https://youtu.be/0MEZ84uH4-E 英语演示视频,v0.1.3:https://www.youtube.com/watch?v=ORDfSG4ltD4 俄语视频,v0.1.0:https://youtu.be/ciyEsZpzbM8 TG频道:https://t.me/tensorbanana

我添加了:

  • XTTSv2 支持
  • UTF8 和俄语支持
  • 加速:生成流式处理、XTTS 流式处理、激进的语音活动检测(VAD)
  • 语音命令:谷歌、停止、重新生成、删除、重置、呼叫
  • 用户说话时中断生成/文本转语音
  • Wav2lip 流式处理

我使用了:

  • whisper.cpp ggml-medium-q5_0.bin
  • mistral-7b-instruct-v0.2.Q5_0.gguf
  • 流式模式的XTTSv2服务器
  • langchain google-serper
  • wav2lip

新闻

  • [2024.07.21] v0.2.0版本。添加了对gemma-2mistral-nemo的支持。增加了多GPU支持(--main-gpu 0--split-mode none--tensor-split 0.5,0.5)。新增--instruct-preset gemma指令预设。更多详情请查看发布说明
  • [2024.07.21] 更新上游llama.cpp/whisper至此提交
  • [2024.06.26] v0.1.8版本。新增--min_p 0.00采样参数。建议俄语设置为0.10。
  • [2024.05.25] 创建了具有多个角色的Telegram机器人:https://t.me/talkllama 并添加了捐赠页面:https://github.com/Mozer/donate
  • [2024.05.17] 为不支持AVX2指令的旧CPU(如Intel i5-2500K)添加了talk-llama-fast-v0.1.7_no_avx2.zip版本。如果主版本无错误崩溃,请使用此版本。
  • [2024.05.09] v0.1.7版本。新增--push-to-talk选项:按住"Alt"键说话(适用于无耳机的扬声器)。现在可以在bat文件中使用西里尔字母。请使用西里尔字母"OEM 866"编码保存,notepad++支持此编码。
  • [2024.04.30] v0.1.6版本。重大修复:起始提示现在可以正常工作。
  • [2024.04.25] v0.1.5版本。新增键盘输入和快捷键。
  • [2024.04.17] v0.1.4版本。新增--batch-size(llama现在比之前少用0.6 GB显存!),--verbose(显示速度)。起始提示现在不再限制长度。但为了保持速度,请保持在ctx_size以内。
  • [2024.04.04] v0.1.0版本。新增流式wav2lip。延迟极低:从用户语音到视频仅需1.5秒!不得不重写sillyTavern-extras、wav2lip、xtts-api-server、tts(均已fork到我的github)。流式wav2lip可在SillyTavern中使用。设置指南和视频将在未来几天内发布。
  • [2024.03.09] v0.0.4版本。新参数:--stop-words(llama的停止词列表,用分号;分隔),--min-tokens(最小输出词元数),--split-after(在N个词元后分割第一句话用于xtts),--seqrep(检测循环:最后300个符号中的20个符号),--xtts-intro(在用户输入后立即为xtts添加随机的Umm/Well/...)。详情请参见0.0.4发布说明。
  • [2024.02.28] v0.0.3版本 --multi-chars参数启用每个角色不同的声音,每个声音将发送到xtts,因此请确保有相应的.wav文件(如alisa.wav)。与语音命令Call NAME一起使用。俄语视频:https://youtu.be/JOoVdHZNCcEhttps://t.me/tensorbanana/876
  • --translate参数用于实时英俄翻译。俄语用户语音使用whisper翻译为英语。然后使用相同的mistral模型在相同上下文中将Llama输出翻译为俄语,无速度下降,无需额外显存。这个技巧让llama在俄语中有更强的推理能力,但会增加语法错误。由于以英语存储,而翻译在每个句子生成后立即从上下文中删除,因此上下文中可以容纳更多文本。--allow-newline参数。默认情况下,如果没有此参数,llama会在遇到换行符时停止生成。
  • [2024.02.25] 我添加了--vad-start-thold参数用于调整语音检测停止(默认值:0.000270;0表示关闭)。VAD检查当前噪音水平,如果声音很大,xtts和llama会停止。如果您在嘈杂的房间里,请调高此值,同时检查--print-energy
  • [2024.02.22] 首次公开发布

注意事项

  • llama.cpp的上下文切换默认工作良好。我使用2048上下文并测试了长达10000个标记的对话 - 模型仍然正常,没有严重的循环或重大问题。Llama记住了开始提示和最后2048个上下文中的所有内容,但中间的内容都丢失了。不会额外使用显存,你可以进行几乎无限长的对话而不会出现速度下降。
  • 默认设置针对极低延迟进行了调整。如果llama打断你:将--vad-last-ms设置为500而不是200毫秒。如果你不喜欢xtts第一句话后的小停顿,将--split-after设置为0而不是5 - 这将关闭第一句话的分割,但第一句话的发音会稍慢一些。
  • wav2lip是在小视频上训练的 - 推荐:300x400分辨率,25帧每秒,1分钟长。大分辨率视频可能导致显存不足错误。
  • wav2lip不适用于动漫,嘴唇看起来像人类,而且有些面部无法检测到。
  • 如果wav2lip经常在音频正常播放时跳过视频的第二部分及以后,在xtts-wav2lip.bat中尝试将--wav-chunk-sizes改为20,40,100,200,300,400,9999甚至100,200,300,400,9999以减少wav分割的激进性。你还可以在talk-llama-wav2lip.bat中调整--sleep-before-xtts 1000,这是llama在发送每个xtts请求后的睡眠时间(毫秒)。
  • 在xtts_wav2lip.bat中,不要将--extras-url设置为http://localhost:5100/,而应设置为http://127.0.0.1:5100/。在我的情况下,localhost选项慢了2秒,不知道为什么。
  • 如果你使用蓝牙耳机,音频滞后于视频,你可以调整这个延迟:在SillyTavern-extras\modules\wav2lip\server_wav2lip.py的play_video_with_audio函数中,第367行设置sync_audio_delta_bytes = 5000
  • wav2lip视频在与主机相同的设备上播放。目前无法在远程服务器(如Google Colab)上运行。目前也不支持移动手机。
  • wav2lip可以与原始SillyTavern一起使用(仅xtts+wav2lip,无语音转文本,无语音中断)。不需要额外扩展,只需按照安装过程进行操作。
  • 显存使用情况:mistral-7B-q5_0 + whisper-medium-q5_0.bin:7.5 GB,xtts:2.7 GB,wav2lip:0.8 GB = 总共11.0 GB。如果你只有8 GB:使用更小的llama量化版本!尝试对xtts使用--lowvram,甚至在CPU而不是GPU上启动xtts(-d=cpu但速度较慢)。尝试关闭xtts的流式传输:在xtts_wav2lip.bat中将流式块大小设置为单个数字(--wav-chunk-sizes 9999)。这会更慢,但对多个小请求的开销更少。
  • 使用扬声器(非耳机):
  1. 你可以关闭噪音对机器人语音的中断--vad_start_thold 0
  2. 可选:有一个"唤醒"命令--wake-command "Anna,"(名字后必须有逗号)。现在,只有以"Anna"名字开头的短语才会以你的身份进入聊天。这在使用扬声器或在嘈杂房间时会有部分帮助。

语言

Whisper STT 支持的语言:南非荷兰语、阿拉伯语、亚美尼亚语、阿塞拜疆语、白俄罗斯语、波斯尼亚语、保加利亚语、加泰罗尼亚语、中文、克罗地亚语、捷克语、丹麦语、荷兰语、英语、爱沙尼亚语、芬兰语、法语、加利西亚语、德语、希腊语、希伯来语、印地语、匈牙利语、冰岛语、印度尼西亚语、意大利语、日语、卡纳达语、哈萨克语、韩语、拉脱维亚语、立陶宛语、马其顿语、马来语、马拉地语、毛利语、尼泊尔语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、塞尔维亚语、斯洛伐克语、斯洛文尼亚语、西班牙语、斯瓦希里语、瑞典语、他加禄语、泰米尔语、泰语、土耳其语、乌克兰语、乌尔都语、越南语和威尔士语。

XTTSv2 支持的语言:英语 (en)、西班牙语 (es)、法语 (fr)、德语 (de)、意大利语 (it)、葡萄牙语 (pt)、波兰语 (pl)、土耳其语 (tr)、俄语 (ru)、荷兰语 (nl)、捷克语 (cs)、阿拉伯语 (ar)、中文 (zh-cn)、日语 (ja)、匈牙利语 (hu)、韩语 (ko)、印地语 (hi)。

Mistral 官方支持的语言:英语、法语、意大利语、德语、西班牙语。但它也可以使用一些其他语言,只是不太流利(例如,俄语虽然没有得到官方支持,但实际上可以使用)。

系统要求

  • Windows 10/11 64位
  • Python、CUDA
  • 16 GB 内存
  • 推荐:12 GB 显存的NVIDIA显卡。最低要求:6 GB 显存的NVIDIA显卡。对于6GB或8GB显存的设备,请参考优化方法
  • 对于AMD、macOS、Linux和Android设备,首先需要编译所有内容。我不确定是否能正常运行。
  • Android版本正在开发中。

安装

适用于支持CUDA的Windows 10/11 x64系统

  • 检查是否安装了Cuda Toolkit 11.x。如果没有,请安装:https://developer.nvidia.com/cuda-11-8-0-download-archive
  • 下载最新的发布版压缩包。解压其内容。
  • 将whisper medium模型下载到talk-llama.exe所在文件夹:英语版俄语版(也可以选择large-v3-q4_0.bin,虽然体积更大但对俄语效果更好)。如果显存不足,可以尝试small-q5版本。对于英语,可以尝试distilled medium,它比普通版少用100MB显存。
  • 将LLM模型下载到同一文件夹:mistral-7b-instruct-v0.2.Q5_0适用于俄语的Vikhr-7B-0.4。如果显存不足,可以尝试q4_K_S或q3版本。
  • 现在让我们安装我修改过的sillyTavern-extras、wav2lip、xtts-api-server和tts(都来自我的GitHub)。注意:xtts-api-server与SillyTavern-Extras存在冲突(xtts deepspeed需要torch 2.1,但extras中的某个包(torchvision 0.17.2)需要torch 2.2)。之前我能在3.11版本中同时运行它们,但用户在不使用conda的情况下安装xtts-api-server和SillyTavern-Extras时报告了几个问题。因此,我们现在将使用两个不同的conda环境安装所有内容,每个环境使用不同的torch版本(每个conda环境约7GB,我知道这很大)。安装分为两部分:xtts和SillyTavern-Extras。如果你知道如何一步步在单个conda环境中安装所有内容,欢迎提交PR。 安装miniconda。安装时请确保勾选"Add Miniconda3 to my PATH environment variable",这很重要。 打开你解压talk-llama-fast-v0.1.3.zip的\xtts\文件夹。在该文件夹中打开cmd,逐行运行以下命令:
conda create -n xtts
conda activate xtts
conda install python=3.11
conda install git

pip install git+https://github.com/Mozer/xtts-api-server pydub
pip install torch==2.1.1+cu118 torchaudio==2.1.1+cu118 --index-url https://download.pytorch.org/whl/cu118
pip install git+https://github.com/Mozer/tts
conda deactivate
conda create -n extras
conda activate extras
conda install python=3.11
conda install git

git clone https://github.com/Mozer/SillyTavern-Extras
cd SillyTavern-extras
pip install -r requirements.txt
cd modules
git clone https://github.com/Mozer/wav2lip
cd wav2lip
pip install -r requirements.txt
conda deactivate

运行

  • 在 /SillyTavern-extras/ 文件夹中双击 silly_extras.bat。等待其下载 wav2lip 检查点并为新视频进行人脸检测(如果需要)。
  • 在 /xtts/ 文件夹中双击 xtts_wav2lip.bat 以启动带有 wav2lip 视频的 xtts 服务器。或者运行 xtts_streaming_audio.bat 以启动不带视频的纯音频 xtts 服务器。注意:首次运行时,xtts 将从 GitHub 下载 DeepSpeed。如果 DeepSpeed 下载失败(出现"Warning: Retrying (Retry... ReadTimeoutError...)"),请开启 VPN 下载 DeepSpeed(27MB)和 xtts 检查点(1.8GB),之后可以关闭 VPN。Xtts 检查点可以不用 VPN 下载。但如果中断下载,检查点将会损坏 - 你必须手动删除 \xtts_models\ 目录并重新启动 xtts。
  • 双击 talk-llama-wav2lip.battalk-llama-wav2lip-ru.bat 或 talk-llama-just-audio.bat。不要运行 exe 文件,只运行 bat 文件。注意:如果你的 .bat 文件中包含西里尔字母(俄语),请将其保存为西里尔文 "OEM 866" 编码(notepad++ 支持此编码)。
  • 开始说话。

针对 6GB 和 8GB 显存的优化

  • 使用 CPU 而不是 GPU,这会稍微慢一些(5-6 秒):在 talk-llama-wav2lip.bat 中找到并将 ngl 改为 -ngl 0(mistral 有 33 层,尝试 0 到 33 之间的值以找到最佳速度)
  • 为 llama 设置较小的上下文:--ctx_size 512
  • 在 xtts_wav2lip.bat 中设置 --lowvram,这将在每次 xtts 请求后将 xtts 模型从 GPU 移到 RAM(但会变慢)
  • 在 xtts_wav2lip.bat 中设置 --wav-chunk-sizes=9999,这会稍微慢一些,但会减少 wav2lip 请求次数
  • 尝试使用更小的 whisper 模型,例如 smallenglish distilled medium

可选项

  • 将新的 xtts 语音放入 \xtts\speakers\。我建议使用 16 位单声道、22050Hz、10 秒长的无噪音和音乐的 wav 文件。使用 Audacity 进行编辑。
  • 将新视频放入 \SillyTavern-extras\modules\wav2lip\input\。我建议使用 300x400 分辨率、25 帧/秒、1 分钟长的视频,不要放高分辨率视频,它们会占用大量显存。每个文件夹放一个视频。文件夹名称应与所需的 xtts 语音名称和 talk-llama-wav2lip.bat 中的角色名称相同。例如,对于名为 Anna 的角色,使用 Anna.wav 和 \Anna\youtube_ann_300x400.mp4。使用 --multi-chars 参数,talk-llama 将把新角色的名称传递给 xtts 和 wav2lip,即使这个角色没有在 bat 文件或开始提示中定义。如果 xtts 找不到该语音,它将使用默认语音。如果 wav2lip 找不到该视频,它将使用默认视频。
  • 将角色描述和一些回复放入 assistant.txt。
  • 为你的角色、.wav 文件和视频文件夹使用完全相同的名称。你也可以制作音频/视频文件的副本(例如 Kurt Cobain 和 Kurt)。现在你可以用两种方式称呼他。
  • 对于 XTTS 中更好的俄语支持,请查看我的微调版本:https://huggingface.co/Ftfyhh/xttsv2_banana 但它不适用于流式传输(在短回复时会产生幻觉)。请在 silly tavern 中与默认 xtts 一起使用。

可选项,更好的 xtts 逗号处理 - 仅适用于不带 wav2lip 视频的 xtts 音频

语音效果更好,但第一句话会稍慢。Xtts 不会按逗号 ',' 分割句子: c:\Users[USERNAME]\miniconda3\Lib\site-packages\stream2sentence\stream2sentence.py 第 191 行,将 sentence_delimiters = '.?!;:,\n…)]}。' 替换为 sentence_delimiters = '.?!;:\n…)]}。'

可选项,Google 搜索插件

  • 从我的仓库下载 search_server.py
  • 安装 langchain:pip install langchain
  • https://serper.dev/api-key 注册,这是免费且快速的,它会给你 2500 次免费搜索。获取 API 密钥,将其粘贴到 search_server.py 的第 13 行 os.environ["SERPER_API_KEY"] = "your_key"
  • 双击 search_server.py 启动搜索服务器。现在你可以使用类似这样的语音命令:"Please google who is Barack Obama" 或 "Пожалуйста погугли погоду в Москве"。

构建,可选

git clone https://github.com/Microsoft/vcpkg.git
cd vcpkg
./bootstrap-vcpkg.sh
./vcpkg integrate install
vcpkg install curl[tool]
  • 将下面的路径 c:\\DATA\\Soft\\vcpkg\\scripts\\buildsystems\\vcpkg.cmake 修改为您安装vcpkg的文件夹。然后进行构建。
git clone https://github.com/Mozer/talk-llama-fast
cd talk-llama-fast
set SDL2_DIR=SDL2\cmake
cmake.exe -DWHISPER_SDL2=ON -DWHISPER_CUBLAS=0 -DGGML_CUDA=1 -DCMAKE_TOOLCHAIN_FILE="c:\\DATA\\Soft\\vcpkg\\scripts\\buildsystems\\vcpkg.cmake" -B build -DCMAKE_BUILD_PARALLEL_LEVEL=4
cmake.exe --build build --config release --target clean
del build\bin\Release\talk-llama.exe & cmake.exe --build build --config release --parallel 4

对于不支持AVX2的旧CPU:cmake.exe -DWHISPER_NO_AVX2=1 -DWHISPER_SDL2=ON -DWHISPER_CUBLAS=0 -DGGML_CUDA=1 -DCMAKE_TOOLCHAIN_FILE="c:\\DATA\\Soft\\vcpkg\\scripts\\buildsystems\\vcpkg.cmake" -B build -DCMAKE_BUILD_PARALLEL_LEVEL=4
然后执行相同的最后两行

编译可能需要30多分钟。

talk-llama.exe 参数

-h,       --help           [默认] 显示此帮助信息并退出
-t N,     --threads N      [4      ] 计算时使用的线程数
-vms N,   --voice-ms N     [10000  ] 语音持续时间(毫秒)
-c ID,    --capture ID     [-1     ] 捕获设备ID
-mt N,    --max-tokens N   [32     ] 每个音频块的最大标记数
-ac N,    --audio-ctx N    [0      ] 音频上下文大小(0 - 全部)
-ngl N,   --n-gpu-layers N [999    ] 存储在VRAM中的层数
-vth N,   --vad-thold N    [0.60   ] 语音平均活动检测阈值
-vths N,  --vad-start-thold N [0.000270] VAD停止TTS的最小级别,0:关闭,0.000270:默认
-vlm N,   --vad-last-ms N  [0      ] 语音后的最小静音时间(毫秒)
-fth N,   --freq-thold N   [100.00 ] 高通频率截止
-su,      --speed-up       [false  ] 音频加速2倍(不工作)
-tr,      --translate      [false  ] 将源语言翻译成英语
-ps,      --print-special  [false  ] 打印特殊标记
-pe,      --print-energy   [false  ] 打印声音能量(用于调试)
--debug                    [false  ] 打印调试信息
-vp,      --verbose-prompt [false  ] 在开始时打印提示
--verbose                  [false  ] 打印速度
-ng,      --no-gpu         [false  ] 禁用GPU
-p NAME,  --person NAME    [Georgi ] 人名(用于提示选择)
-bn NAME, --bot-name NAME  [LLaMA  ] 机器人名称(用于显示)
-w TEXT,  --wake-command T [       ] 要监听的唤醒命令
-ho TEXT, --heard-ok TEXT  [       ] 生成回复前TTS说的话
-l LANG,  --language LANG  [en     ] 口语语言
-mw FILE, --model-whisper  [models/ggml-base.en.bin] Whisper模型文件
-ml FILE, --model-llama    [models/ggml-llama-7B.bin] LLaMA模型文件
-s FILE,  --speak TEXT     [./examples/talk-llama/speak] TTS命令
--prompt-file FNAME        [       ] 包含自定义开始对话提示的文件
--instruct-preset TEXT     [       ] 使用的指令预设(不带.json)
--session FNAME                   用于缓存模型状态的文件(可能很大!)(默认:无)
-f FNAME, --file FNAME     [       ] 文本输出文件名
--ctx_size N              [2048   ] 提示上下文的大小
-b N,     --batch-size N   [64     ] 输入批次大小
-n N,     --n_predict N    [64     ] 预测的最大标记数
--temp N                   [0.90   ] 温度
--top_k N                  [40.00  ] top_k
--top_p N                  [1.00   ] top_p
--min_p N                  [0.00   ] min_p
--repeat_penalty N         [1.10   ] 重复惩罚
--repeat_last_n N          [256    ] 重复最后N个
--main-gpu N               [0      ] 主GPU ID,从0开始
--split-mode NAME          [none   ] GPU分割模式:'none'或'layer'
--tensor-split NAME        [(null) ] 张量分割,浮点数列表:0.5,0.5
--xtts-voice NAME          [emma_1 ] XTTS语音(不带.wav)
--xtts-url TEXT            [http://localhost:8020/] XTTS/Silero服务器URL,带尾部斜杠
--xtts-control-path FNAME  [c:\DATA\LLM\xtts\xtts_play_allowed.txt] 不再使用
--xtts-intro               [false  ] XTTS即时短随机介绍,如"嗯..."
--sleep-before-xtts        [0      ] LLaMA推理前的休眠时间(毫秒)
--google-url TEXT          [http://localhost:8003/] Langchain Google-Serper服务器URL,带/
--allow-newline            [false  ] 允许LLaMA输出中的换行
--multi-chars              [false  ] XTTS将使用与LLaMA输出相同的WAV名称
--push-to-talk             [false  ] 按住Alt键说话
--seqrep                   [false  ] 序列重复惩罚,在300个中搜索最后20个
--split-after N            [0      ] 在前N个标记后分割用于TTS
--min-tokens N             [0      ] 输出的最小新标记数
--stop-words TEXT          [       ] LLaMA停止词:用;分隔

语音命令:

完整的命令列表及变体可在talk-llama.cpp中找到,搜索user_command

  • 停止(остановись,Ctrl+空格键)
  • 重新生成(переделай,Ctrl+右箭头)- 将重新生成llama的回答
  • 删除(удали,Ctrl+Delete键)- 将删除用户问题和llama的回答
  • 删除3条消息(удали 3 сообщениия)
  • 重置(удали все,Ctrl+R)- 将删除除初始提示外的所有上下文
  • 搜索某事(погугли что-то)
  • 呼叫某人(позови Алису)

已知问题

  • 如果遇到缺失cuda .dll错误,请参阅此问题
  • 如果Whisper无法听到你的声音,请参阅此问题
  • 未实现Rope上下文。请使用上下文偏移(默认启用)。
  • 有时Whisper会产生幻听,需要将幻听内容添加到停用词中。请查看talk-llama.cpp中的misheard text
  • 不要在.bat文件的字符或路径中使用西里尔字母(русские),由于编码问题可能无法正常工作。如果需要在talk-llama-fast.exe中使用西里尔字母,请从.bat文件复制文本并粘贴到cmd中。
  • 首次运行时,wav2lip将对新添加的视频进行人脸检测。这将花费约30-60秒,但仅发生一次,之后会保存到缓存中。人脸检测存在一个会导致整体速度变慢的bug(内存泄漏)。人脸检测完成后,需要重启Silly Tavern Extras。
  • 有时wav2lip视频窗口会消失,但音频仍在正常播放。如果视频窗口没有自动恢复,请重启Silly Tavern Extras。
  • 如果重启xtts,你需要重启silly-tavern-extras。否则,wav2lip会开始播放已创建视频的错误片段。
  • 有时快速输入时,消息的第一个字母可能不会显示。

许可证

  • talk-llama-fast - MIT许可证 - 可用于商业用途
  • whisper.cpp - MIT许可证 - 可用于商业用途
  • whisper - MIT许可证 - 可用于商业用途
  • TTS(xtts) - Mozilla公共许可证2.0 - 可用于商业用途
  • xtts-api-server - MIT许可证 - 可用于商业用途
  • Silly Extras - GNU通用公共许可证v3.0 - 可用于商业用途
  • Mistral 7B - Apache 2.0许可证 - 可用于商业用途
  • Wav2Lip - 非商业用途 - 如需商业用途请直接联系synclabs.so

联系方式

Reddit:https://www.reddit.com/user/tensorbanana2 电报:https://t.me/tensorbanana 捐赠:https://github.com/Mozer/donate

项目侧边栏1项目侧边栏2
推荐项目
Project Cover

豆包MarsCode

豆包 MarsCode 是一款革命性的编程助手,通过AI技术提供代码补全、单测生成、代码解释和智能问答等功能,支持100+编程语言,与主流编辑器无缝集成,显著提升开发效率和代码质量。

Project Cover

AI写歌

Suno AI是一个革命性的AI音乐创作平台,能在短短30秒内帮助用户创作出一首完整的歌曲。无论是寻找创作灵感还是需要快速制作音乐,Suno AI都是音乐爱好者和专业人士的理想选择。

Project Cover

有言AI

有言平台提供一站式AIGC视频创作解决方案,通过智能技术简化视频制作流程。无论是企业宣传还是个人分享,有言都能帮助用户快速、轻松地制作出专业级别的视频内容。

Project Cover

Kimi

Kimi AI助手提供多语言对话支持,能够阅读和理解用户上传的文件内容,解析网页信息,并结合搜索结果为用户提供详尽的答案。无论是日常咨询还是专业问题,Kimi都能以友好、专业的方式提供帮助。

Project Cover

阿里绘蛙

绘蛙是阿里巴巴集团推出的革命性AI电商营销平台。利用尖端人工智能技术,为商家提供一键生成商品图和营销文案的服务,显著提升内容创作效率和营销效果。适用于淘宝、天猫等电商平台,让商品第一时间被种草。

Project Cover

吐司

探索Tensor.Art平台的独特AI模型,免费访问各种图像生成与AI训练工具,从Stable Diffusion等基础模型开始,轻松实现创新图像生成。体验前沿的AI技术,推动个人和企业的创新发展。

Project Cover

SubCat字幕猫

SubCat字幕猫APP是一款创新的视频播放器,它将改变您观看视频的方式!SubCat结合了先进的人工智能技术,为您提供即时视频字幕翻译,无论是本地视频还是网络流媒体,让您轻松享受各种语言的内容。

Project Cover

美间AI

美间AI创意设计平台,利用前沿AI技术,为设计师和营销人员提供一站式设计解决方案。从智能海报到3D效果图,再到文案生成,美间让创意设计更简单、更高效。

Project Cover

稿定AI

稿定设计 是一个多功能的在线设计和创意平台,提供广泛的设计工具和资源,以满足不同用户的需求。从专业的图形设计师到普通用户,无论是进行图片处理、智能抠图、H5页面制作还是视频剪辑,稿定设计都能提供简单、高效的解决方案。该平台以其用户友好的界面和强大的功能集合,帮助用户轻松实现创意设计。

投诉举报邮箱: service@vectorlightyear.com
@2024 懂AI·鲁ICP备2024100362号-6·鲁公网安备37021002001498号