
「 hey今天过得怎么样要听我讲个故事吗」屏幕里的二次元角色眨着眼睛歪头看着你声音自然得不像机器合成——而这一切完全免费、完全本地运行、完全属于你。如果你曾幻想过拥有一个24小时在线、随叫随到、性格可定制的AI虚拟伙伴不管是当桌面宠物、直播助手还是深夜陪聊的树洞这篇教程就是为你准备的。我们将用Open-LLM-VTuberNVIDIA NIM 免费大模型 APICosyVoice2 超自然语音合成手把手搭出一套多模态实时交互系统。不需要花钱买会员不需要把数据上传到别人的服务器你的聊天记录、语音、角色形象全部留在自己电脑上。最终效果预览Live2D 动态角色—— 眨眼、歪头、口型同步栩栩如生顶级大模型大脑—— 通义千问、DeepSeek 等任选对话流畅有逻辑中文语音识别—— 对着麦克风说话她/他能听懂CosyVoice2 超自然语音—— 告别机械音声音温柔得像真人️浏览器即开即用—— 手机/平板/电脑都能访问 目录 先看效果你能得到什么️ 准备工作检查你的装备 第一步部署 NVIDIA NIM给 AI 装上大脑 第二步配置语音识别给 AI 装上耳朵 第三步部署 CosyVoice2给 AI 装上嘴巴 第四步搭建 Open-LLM-VTuber组装身体 第五步启动 Live2D 前端注入灵魂 每日启动顺序建议收藏 避坑指南常见问题排雷 进阶玩法 写在最后 先看效果你能得到什么功能体验描述语音对话按住空格说话角色实时回应延迟 1-3 秒口型同步说话时 Live2D 角色嘴巴会动停止时闭嘴情感表达角色会根据对话内容做出眨眼、歪头等动作记忆上下文多轮对话连贯能记住你之前说过的话隐私安全所有数据本地处理不上传云端硬件要求很亲民RTX 3050 笔记本就能流畅跑甚至纯 CPU 也能玩只是响应稍慢几秒。️ 准备工作检查你的装备硬件要求项目最低配置推荐配置显卡核显 / CPU 即可RTX 3050 及以上内存8 GB16 GB硬盘30 GB 可用50 GB模型文件大麦克风任意麦克风降噪耳麦软件环境缺一不可Git—— 下载项目代码Python 3.12—— 运行后端服务官网下载安装时务必勾选 “Add to PATH”Node.js 18—— 运行前端界面官网下载VS Code推荐—— 编辑配置文件有语法高亮不容易出错⚠️重要提示建议把所有项目放在非系统盘如D:\或E:\模型文件加起来有 10GBC 盘容易爆满。 第一步部署 NVIDIA NIM给 AI 装上大脑NVIDIA NIM 是英伟达推出的模型推理服务目前对个人开发者提供免费 API 额度。我们通过litellm把它包装成 OpenAI 兼容的接口这样后续配置会非常简单。1.1 获取你的免费 API Key访问 NVIDIA NIM 官网用邮箱注册账号进入控制台找到API Keys复制你的 Key。然后在系统里设置环境变量重启终端后生效Windows PowerShell$env:NVIDIA_API_KEY 你的API密钥Windows CMDset NVIDIA_API_KEY你的API密钥永久设置推荐Win R→ 输入sysdm.cpl→ 高级 → 环境变量 → 新建系统变量变量名NVIDIA_API_KEY变量值你的 API 密钥1.2 安装 Litellm打开终端执行pipinstalllitellm1.3 编写配置文件新建一个文件叫config.yaml内容如下直接复制可用model_list:-model_name:qwen-fastlitellm_params:model:nvidia_nim/qwen/qwen3.5-122b-a10bapi_key:os.environ/NVIDIA_API_KEY-model_name:deepseek-flashlitellm_params:model:nvidia_nim/deepseek-ai/deepseek-v4-flashapi_key:os.environ/NVIDIA_API_KEY# 更多免费模型可选取消注释即可用# - model_name: nemotron# litellm_params:# model: nvidia_nim/nvidia/llama-3.1-nemotron-70b-instruct# api_key: os.environ/NVIDIA_API_KEYlitellm_settings:drop_params:truegeneral_settings:master_key:sk-litellm-local配置说明model_name是你自己取的别名后面会用到master_key是本地代理的密码填sk-litellm-local就行通义千问qwen适合中文闲聊DeepSeek 适合逻辑推理按喜好选1.4 启动大脑服务litellm--configconfig.yaml--port4000看到类似Uvicorn running on http://0.0.0.0:4000的提示说明成功了。验证一下浏览器访问 http://localhost:4000/v1/models能看到模型列表就 OK。小技巧这个窗口不能关建议最小化到后台。如果想后台运行可以用pm2或写个.bat脚本。 第二步配置语音识别给 AI 装上耳朵我们要用sherpa-onnx这是一个完全离线的语音识别引擎不需要联网保护隐私。2.1 下载语音模型访问 sherpa-onnx Releases下载sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17.tar.bz2大小约900MB支持中文、英文、日文、粤语。2.2 解压到项目目录先克隆 Open-LLM-VTuber 项目如果还没做gitclone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber.gitcdOpen-LLM-VTuber在项目里新建models文件夹把刚才下载的压缩包解压进去最终路径类似Open-LLM-VTuber/ └── models/ └── sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17/ ├── model.int8.onnx ├── tokens.txt └── ...✅ 记住这个路径后面配置文件里要用。 第三步部署 CosyVoice2给 AI 装上嘴巴CosyVoice2 是阿里达摩院开源的中文语音合成天花板效果远超普通 TTS抑扬顿挫、情感自然而且完全免费。3.1 下载模型文件约 4.5GB访问 CosyVoice2-0.5B HuggingFace下载以下核心文件文件名说明llm.pt大语言模型权重flow.pt流模型权重hift.pt声码器权重speech_tokenizer_v2.onnx语音分词器speech_tokenizer_v2.onnx.batch批量推理用campplus.onnx说话人特征提取flow.decoder.estimator.fp32.onnx解码器spk2info.pt音色信息pronunciation_dict.txt发音词典CosyVoice-BlankEN/model.safetensors空白英文模型新建一个文件夹比如E:/models/CosyVoice2-0.5B/把这些文件全部放进去。下载慢可以用 hf-mirror.com 镜像加速或者装个huggingface-cli工具批量下载。3.2 克隆 CosyVoice 仓库gitclone https://github.com/FunAudioLLM/CosyVoice.gitcdCosyVoice3.3 安装依赖pipinstall-rrequirements.txt⚠️常见问题如果安装grpcio或protobuf报错是因为版本太新/太旧。可以尝试pipinstallgrpcio1.60.0protobuf4.25.13.4 启动语音合成服务python webui.py--model_dirE:/models/CosyVoice2-0.5B--port50000浏览器打开 http://localhost:50000选择“预训练音色”如中文女输入文字点合成听到声音就说明成功了音色选择建议中文女温柔甜美中文男沉稳磁性。后面配置里填的名字必须和这里下拉菜单里的一致。 第四步搭建 Open-LLM-VTuber组装身体这是核心框架负责把「大脑 耳朵 嘴巴 身体」串联起来。4.1 下载项目gitclone https://github.com/Open-LLM-VTuber/Open-LLM-VTuber.gitcdOpen-LLM-VTuber4.2 创建虚拟环境强烈推荐python-mvenv venv .\venv\Scripts\activate看到命令行前面出现(venv)就说明虚拟环境激活成功了。4.3 安装依赖pipinstall-rrequirements.txt pipinstallgradio_client# 用于连接 CosyVoice24.4 配置核心文件conf.yaml这是最关键的一步在项目根目录找到conf.yaml没有就新建一个填入以下内容system_config:host:localhostport:12393character_config:# 角色模型名称项目自带 mao_pro也可以放自己的 Live2D 模型live2d_model_name:mao_pro# 角色人设这里决定她的性格persona_prompt:|你是一个可爱的 AI 虚拟主播名字叫小星。 你性格温柔、有点俏皮喜欢用颜文字和语气词。 你喜欢和观众分享日常也会认真倾听对方的烦恼。 每次回复控制在 2-3 句话不要太长。agent_config:basic_memory_agent:llm_provider:openai_compatible_llmllm_configs:openai_compatible_llm:base_url:http://localhost:4000/v1llm_api_key:sk-litellm-localmodel:deepseek-flash# 或 qwen-fastasr_config:asr_model:sherpa_onnx_asrsherpa_onnx_asr:model_type:sense_voicesense_voice:./models/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17/model.int8.onnxtokens:./models/sherpa-onnx-sense-voice-zh-en-ja-ko-yue-2024-07-17/tokens.txttts_config:tts_model:cosyvoice2_ttscosyvoice2_tts:client_url:http://127.0.0.1:50000/sft_dropdown:中文女# 必须和 CosyVoice WebUI 里的音色名完全一致配置要点persona_prompt是灵魂所在你可以改成任何性格高冷御姐、中二少年、毒舌 AI……model填第一步里你自己取的model_namesense_voice和tokens的路径要根据你实际解压的位置调整sft_dropdown必须和 CosyVoice WebUI 下拉框里的名字一字不差4.5 启动后端服务python run_server.py看到Uvicorn running on http://localhost:12393即成功 第五步启动 Live2D 前端注入灵魂5.1 进入前端目录cdfrontend5.2 安装前端依赖npminstall⏳ 这一步可能需要几分钟如果卡住可以换淘宝镜像npmconfigsetregistry https://registry.npmmirror.comnpminstall5.3 启动前端npmrun dev看到Local: http://localhost:5173/后浏览器打开这个地址——你的 AI 虚拟主播就活过来了 每日启动顺序建议收藏每天想和她/他聊天时按这个顺序开四个窗口顺序服务命令端口窗口不能关1️⃣Litellm大脑litellm --config config.yaml --port 40004000✅2️⃣CosyVoice嘴巴python webui.py --model_dir E:/models/CosyVoice2-0.5B --port 5000050000✅3️⃣VTuber 后端身体python run_server.py12393✅4️⃣前端灵魂npm run dev5173✅全部跑起来后打开 http://localhost:5173按住空格说话开始你们的对话吧懒人方案把上面四个命令写成.bat批处理文件双击一键启动 避坑指南常见问题排雷❓ Q1CosyVoice 安装依赖时疯狂报错原因grpcio、protobuf、hydra-core等库版本冲突。解决pipinstallgrpcio1.60.0protobuf4.25.1 hydra-core1.3.2如果还报错建议直接用 Python 3.12 的纯净环境重试。❓ Q2角色不说话后端也没报错排查步骤先访问 http://localhost:50000手动输入文字看 CosyVoice 能否合成语音检查conf.yaml里的sft_dropdown是否和 WebUI 下拉菜单完全一致注意全角半角看后端窗口日志有没有gradio_client连接失败的提示❓ Q3NVIDIA NIM 连接失败提示 401/403排查步骤检查NVIDIA_API_KEY环境变量是否设置正确echo $env:NVIDIA_API_KEY看看有没有值检查网络是否需要代理公司/校园网可能需要确认 API Key 没过期NVIDIA 免费额度有期限❓ Q4语音识别不准确或者识别成英文解决检查conf.yaml中 ASR 配置是否用了中文模型以及model_type是否为sense_voice。❓ Q5前端页面空白或者角色不显示解决检查浏览器控制台F12有没有报错确认live2d_model_name对应的文件夹确实存在于live2d-models目录尝试换 Chrome/Edge 浏览器不要用 IE❓ Q6对话很卡顿要等很久优化方案换更快的模型deepseek-v4-flash比qwen3.5-122b响应更快检查显卡是否被其他程序占用缩短persona_prompt里的回复长度限制如每次只回复1句话 进阶玩法玩法操作换角色形象把下载的 Live2D 模型文件夹放入live2d-models修改conf.yaml的live2d_model_name换声音在 CosyVoice WebUI 里试听后改conf.yaml的sft_dropdown换大模型在config.yaml添加新模型然后在conf.yaml改model字段自定义人设修改persona_prompt可以写背景故事、口癖、禁忌话题等记忆持久化项目支持长期记忆配置memory_config即可让角色记住你们的过往接入直播配合 OBS 浏览器源可以把角色放到直播间当虚拟主播 写在最后恭喜你现在你拥有了一个完全免费、完全本地、完全私有的 AI 虚拟伙伴。她/他不会泄露你的秘密不会突然收费不会哪天服务器关停就消失。你可以随时修改她/他的性格、声音、外貌打造真正属于你的 AI 伴侣。这不仅仅是一个技术玩具更是开源社区送给每个人的礼物——让 AI 回归个人让智能真正私有。如果这篇教程帮到了你欢迎点赞 、收藏 ⭐、评论 有任何问题可以在评论区留言我会尽力解答。声明文中涉及的模型和代码均来自开源项目请遵守各自许可证MIT/Apache 等。NVIDIA NIM 免费额度政策可能调整请以官方最新公告为准。相关资源汇总Open-LLM-VTuberhttps://github.com/Open-LLM-VTuber/Open-LLM-VTuberCosyVoicehttps://github.com/FunAudioLLM/CosyVoicesherpa-onnxhttps://github.com/k2-fsa/sherpa-onnxNVIDIA NIMhttps://build.nvidia.com/Litellmhttps://github.com/BerriAI/litellm—— 技术让幻想成真祝你玩得开心