Ollama本地部署AI大模型:从入门到实战的完整指南 1. 项目概述为什么我们需要在本地部署AI大模型最近两年AI大模型的热度居高不下从ChatGPT到Claude再到国内外的各种开源模型几乎每周都有新东西出来。但很多朋友尤其是开发者、数据敏感行业从业者或者单纯想折腾的极客心里都有一个共同的疑问这些模型能力很强但每次调用都得联网数据要上传到云端速度、隐私、成本都是问题。有没有一种方法能把一个“聪明”的模型像安装一个软件一样装在我自己的电脑或者服务器上让它完全为我所用这就是“本地部署”的核心诉求。而Ollama正是目前解决这个问题最优雅、最受社区欢迎的工具之一。它不是一个模型而是一个“模型运行与管理平台”。你可以把它理解为一个专门为大型语言模型LLM设计的“Docker”。通过Ollama你可以用一条简单的命令就把Llama 3、Qwen、Mistral等上百种开源模型“拉取”到本地并立即运行起来通过API或命令行与之交互。我之所以花时间深入研究Ollama是因为在实际项目中无论是构建企业内部的知识库问答系统还是开发需要处理敏感数据的金融分析工具云端API的延迟、数据出境风险以及长期使用的Token成本都是无法回避的痛点。本地部署虽然对硬件有一定要求但它带来的数据主权、零延迟响应和一次投入长期使用的优势对于特定场景来说是决定性的。这篇文章我将以一个资深开发者的视角为你拆解从零开始使用Ollama部署本地大模型的完整流程。我会涵盖从环境准备、模型选择、安装配置、性能优化到最终集成到应用中的全链路细节。无论你是想在自己的笔记本上体验AI还是计划在公司服务器上搭建一套稳定的私有化AI服务这篇指南都能给你提供可直接复现的“操作手册”和“避坑地图”。2. 核心思路与工具选型为什么是Ollama在决定本地部署方案时我们面临几个选择直接使用模型原生的推理框架如llama.cpp、vLLM、使用综合性的WebUI工具如LM Studio、Oobaboogas Text Generation WebUI或者使用Ollama这样的标准化管理工具。2.1 Ollama的核心优势解析经过对比和大量实践我最终将Ollama作为首推方案原因在于它完美平衡了易用性、灵活性和生态完整性极简的模型管理ollama run llama3:8b一条命令完成模型的下载、加载和启动对话。它内置了模型仓库自动处理模型文件的下载、版本管理和依赖库用户无需关心复杂的C编译或Python环境冲突。标准化的API接口Ollama在本地启动后会提供一个完全兼容OpenAI API格式的HTTP服务默认端口11434。这意味着所有为ChatGPT API编写的代码、框架如LangChain、LlamaIndex几乎可以无缝迁移到本地模型上迁移成本极低。跨平台与开箱即用官方提供了Windows、macOS、Linux包括Docker的一键安装包。特别是对Windows用户非常友好解决了在Windows上部署LLM historically difficult的问题。活跃的社区与丰富的模型库Ollama官方维护了一个不断增长的模型库ollama.ai/library包含了从轻量级到重量级的各种模型。社区也贡献了大量微调版本比如专门用于代码的codellama、中文优化的qwen系列等。2.2 与其他方案的横向对比为了让你更清楚Ollama的定位这里做一个简单的对比工具/方案优点缺点适用场景Ollama安装部署最简单API标准化模型管理方便生态好。对模型格式有要求需为GGUF等兼容格式高级定制如LoRA加载需通过Modelfile实现。快速原型验证、生产环境轻量级部署、需要与现有AI应用框架LangChain快速集成。LM Studio图形化界面优秀适合非开发者内置聊天界面功能强大模型兼容性好。更偏向于单机桌面使用作为后台服务集成时需要额外工作资源占用相对较高。个人电脑上体验和测试不同模型不需要编程交互。llama.cpp性能极致优化资源占用最低支持最广泛的量化格式和硬件后端CPU/GPU。需要命令行操作环境配置相对复杂没有统一的模型管理。对推理速度、内存占用有极致要求的嵌入式或边缘设备部署。vLLM高吞吐量支持Continuous batching非常适合高并发API服务。部署相对复杂对PyTorch和GPU驱动版本要求严格更偏向服务器端。需要面向大量用户提供高速、稳定AI服务的生产环境。实操心得对于绝大多数从零开始的个人开发者或中小团队我的建议是首选Ollama。它能让你在10分钟内跑起第一个模型快速验证想法。当你的应用需要面对极高并发时再考虑基于vLLM或TGIText Generation Inference构建更专业的服务。而llama.cpp则是当你需要在树莓派或老旧电脑上跑模型时的“救命稻草”。2.3 硬件要求与准备你的电脑能跑得动吗这是本地部署最现实的问题。大模型是“内存怪兽”和“算力饕餮”。Ollama能帮你简化软件流程但硬件门槛是实打实的。核心瓶颈显存VRAM模型参数需要加载到GPU显存中才能获得可接受的推理速度。一个粗略的估算公式模型参数量B量化位数bit / 8 ≈ 所需显存GB*。例如运行一个7B参数的模型如果使用q4_0量化4位大约需要7 * 4 / 8 3.5GB显存。运行一个70B参数的q4_0模型则需要70 * 4 / 8 35GB显存这已经超过了绝大多数消费级显卡如RTX 4090的24GB。CPU与内存如果没有独立显卡或显存不足Ollama会自动回退到CPU模式。此时模型参数会加载到系统内存RAM中推理速度会慢很多。一个7B的q4_0模型在CPU上运行大约需要4-8GB内存但生成速度可能只有1-3 token/秒。硬盘空间模型文件本身很大。一个7B的GGUF文件大约4-6GB一个70B的模型可能达到40GB。请确保有足够的SSD空间。给新手的硬件建议入门体验8GB以上内存的普通电脑可以尝试运行tinyllama、phi这类1B-3B参数的小模型或7B模型的2-3位量化版纯CPU模式也能有基本交互。流畅使用拥有一张显存8GB及以上的NVIDIA显卡如RTX 3060 12G, RTX 4060 Ti 16G。这是运行7B-13B模型4位量化的“甜点”配置能获得不错的交互速度10-30 token/秒。专业开发/部署需要显存24GB及以上的显卡如RTX 4090, RTX 3090或专业卡A5000等才能驾驭13B-34B的模型或同时运行多个7B模型提供服务。注意事项苹果 Silicon MacM1/M2/M3用户是幸运的Ollama对Metal后端优化得很好统一内存架构让“显存”和内存共享跑7B模型体验非常流畅。这是目前笔记本端本地AI体验最好的平台之一。3. 从零开始Ollama的安装与配置实战理论讲完我们开始动手。我会以最常用的Windows和LinuxUbuntu为例演示安装过程。macOS用户可以直接从官网下载安装包步骤更为简单。3.1 Windows系统安装指南对于Windows用户Ollama提供了傻瓜式的安装程序。下载安装包 访问Ollama官网ollama.ai点击下载Windows版本。你会得到一个名为OllamaSetup.exe的文件。避坑提示由于网络原因直接从官网下载可能非常慢甚至失败。这是新手遇到的第一个高频问题。解决方案使用国内镜像源。例如你可以搜索“Ollama 国内下载”找到由国内社区或高校维护的下载地址。一个常见的方法是使用https://mirror.ghproxy.com/代理Github Release的链接。但请注意从可信来源获取安装包。安装与运行 双击安装程序一路“Next”即可。安装完成后Ollama会以服务形式在后台运行并在系统托盘出现一个羊驼图标。同时它会自动打开一个命令行窗口。验证安装 打开一个新的PowerShell或CMD窗口输入以下命令ollama --version如果返回版本号如ollama version 0.1.xx说明安装成功。拉取并运行你的第一个模型 在命令行中输入最经典的命令ollama run llama3:8b如果你是第一次运行这个模型Ollama会开始下载llama3:8b的模型文件。下载完成后会自动进入交互式聊天界面。你可以直接输入问题比如“用Python写一个快速排序函数”模型就会开始生成回答。实操心得ollama run命令是ollama pull下载模型和ollama serve启动模型服务的组合。第一次运行某个模型时下载是最大的时间开销。同样下载慢是第二个高频问题。下载加速技巧修改环境变量推荐在系统环境变量中新增一个名为OLLAMA_HOST的变量值设置为0.0.0.0。然后新增一个名为OLLAMA_MODELS的变量将其值设置为你希望存放模型文件的本地目录绝对路径例如D:\AI\Models。这样不仅可以自定义模型存储位置避免C盘爆满有时也能规避一些路径权限问题。使用代理如果你有可用的网络代理可以为命令行终端设置代理。在PowerShell中临时设置$env:HTTP_PROXYhttp://你的代理IP:端口; $env:HTTPS_PROXYhttp://你的代理IP:端口。然后再执行ollama run。手动导入GGUF文件这是终极解决方案。从Hugging Face等社区网站直接下载模型的GGUF格式文件如llama-3-8b-instruct.Q4_K_M.gguf。然后使用ollama create命令配合一个Modelfile来从本地文件创建模型。这完全绕开了网络下载。3.2 Linux系统安装与深度配置在服务器上部署Linux是更常见的选择。以下以Ubuntu 22.04为例。一键安装 Ollama提供了便捷的安装脚本。curl -fsSL https://ollama.ai/install.sh | sh这个脚本会自动检测系统架构添加Ollama的软件源并安装相应的包。启动服务并设置开机自启 安装完成后Ollama服务会自动启动。你可以通过systemctl管理它。sudo systemctl status ollama # 查看状态 sudo systemctl enable ollama # 设置开机自启 sudo systemctl restart ollama # 重启服务以服务用户身份运行模型 安装后Ollama会创建一个名为ollama的系统用户来运行服务。如果你想为这个用户拉取模型需要切换用户sudo -u ollama ollama run llama3:8b但更常见的做法是将你自己的用户加入到ollama组以获得权限sudo usermod -aG ollama $USER注销并重新登录后你就可以直接使用ollama run命令了。配置模型存储路径重要 默认情况下模型存储在/usr/share/ollama/.ollama/models。对于服务器我们通常希望将其放在数据盘或空间更大的目录。 编辑Ollama的服务配置文件sudo systemctl edit ollama.service在打开的编辑器中添加以下内容将/path/to/your/models替换为你的目标路径[Service] EnvironmentOLLAMA_MODELS/path/to/your/models保存退出后重新加载配置并重启服务sudo systemctl daemon-reload sudo systemctl restart ollama3.3 核心操作命令大全掌握以下命令你就能驾驭Ollama的日常使用模型管理ollama list列出本地已下载的模型。ollama pull model-name仅下载模型不运行如ollama pull qwen2:7b。ollama rm model-name删除本地模型。ollama cp source-model new-model-name复制一个模型常用于创建自定义模型的基础。运行与交互ollama run model-name运行模型并进入交互式聊天。ollama run model-name “你的问题”运行模型问一个问题后退出。ollama serve以后台服务模式启动Ollama通常安装后已自动运行。高级功能ollama create model-name -f ./Modelfile使用自定义的Modelfile创建模型。ollama show model-name --modelfile显示某个模型的Modelfile内容。ollama ps显示当前正在运行的模型进程。4. 模型选择与性能调优找到最适合你的“大脑”Ollama官方库里有上百个模型如何选择这取决于你的任务、硬件和语言需求。4.1 主流模型家族与选型建议模型系列代表模型 (Ollama中名称)特点适用场景最低硬件建议Llama 3llama3:8b,llama3:70bMeta最新开源综合能力强指令跟随好生态支持极佳。通用聊天、问答、内容生成、代码辅助。是目前开源领域的标杆。8B需8G显存70B需40G显存。Qwen 2qwen2:7b,qwen2:72b阿里通义千问开源版中文能力突出数学、代码能力强。中文场景优先如中文对话、文档处理、中文代码生成。7B需8G显存。Mistralmistral:7b,mixtral:8x7b法国公司出品7B模型以小体积实现高性能。Mixtral是混合专家模型效率高。资源受限下的高性能选择。Mixtral适合需要较强推理能力的任务。Mistral 7B需8G显存Mixtral需45G显存。Gemmagemma:7bGoogle出品轻量、高效、负责任AI设计。教育、入门学习、对内容安全有要求的场景。7B需8G显存。Phiphi3:mini,phi3:medium微软出品“小身材大能量”的代表3.8B参数媲美7B模型。移动端/边缘设备部署、快速原型验证、资源极度受限环境。3.8B需4G内存CPU也可跑。给新手的模型推荐路线图第一步尝鲜phi3:mini(3.8B) 或tinyllama(1.1B)。几乎任何电脑都能跑快速感受本地AI。第二步实用llama3:8b或qwen2:7b。这是当前“性价比”的黄金区间在8-12GB显存的显卡上运行4位量化版能力足够应对大多数日常任务和开发辅助。第三步专业mixtral:8x7b或qwen2:72b。如果你有强大的显卡如双卡或A100这些模型能提供接近顶级商用模型的能力。4.2 量化在性能与精度之间取得平衡模型量化是本地部署的“魔法”它通过降低模型权重的数值精度来大幅减少模型大小和内存占用。常见的量化等级以llama.cpp的GGUF格式为例精度从高到低Q8_08位整数几乎无损体积大。Q6_K6位精度损失很小。Q5_K_M5位推荐在精度和速度间平衡的选项。Q4_K_M4位最流行的选择在可感知的轻微质量损失下换来近一半的体积和内存节省。Q3_K_M/Q2_K3位或2位体积更小但质量下降明显可能胡言乱语。在Ollama中模型名称通常就包含了量化信息例如llama3:8b默认可能是Q4_K_M。你也可以指定版本如ollama run llama3:8b:q4_0。实操心得对于99%的应用场景Q4_K_M (或 q4_0) 是最佳起点。它在我的测试中与更高精度版本在对话流畅度、常识问答上差异极小但推理速度更快显存要求更低。只有在进行严格的数学计算或逻辑推理时才需要考虑Q5或Q6。4.3 使用Modelfile定制专属模型Ollama的Modelfile是一个强大的功能它允许你基于现有模型创建自定义版本。你可以修改系统提示词给模型一个固定的身份或行为设定。调整参数如温度temperature、上下文长度num_ctx等。集成外部数据通过FROM指令加载本地GGUF文件。示例创建一个“严谨的代码助手”模型创建一个名为CoderModelfile的文本文件内容如下FROM llama3:8b # 设置系统提示词 SYSTEM 你是一个严谨、专业的Python和JavaScript代码助手。你的回答必须准确、高效并包含必要的注释。只回答与编程相关的问题对于其他问题礼貌地拒绝。 # 设置参数 PARAMETER temperature 0.2 # 降低随机性让输出更确定 PARAMETER num_ctx 4096 # 设置上下文窗口为4096 token使用这个Modelfile创建新模型ollama create my-coder -f ./CoderModelfile运行你的自定义模型ollama run my-coder现在这个模型就会始终以“严谨代码助手”的身份和你对话。5. 集成与应用让本地模型真正“干活儿”让模型在命令行里聊天只是第一步。真正的价值在于将它集成到你的应用程序中。Ollama提供的兼容OpenAI的API让这一切变得非常简单。5.1 调用Ollama API启动Ollama后它会在http://localhost:11434提供API服务。其/api/chat端点与OpenAI的ChatCompletion接口高度兼容。Python调用示例import requests import json def ask_ollama(prompt, modelllama3:8b): url http://localhost:11434/api/chat payload { model: model, messages: [{role: user, content: prompt}], stream: False # 设为True可以流式接收输出 } response requests.post(url, jsonpayload) if response.status_code 200: return response.json()[message][content] else: return fError: {response.status_code}, {response.text} # 使用示例 answer ask_ollama(解释一下量子计算的基本原理。) print(answer)5.2 与LangChain/LlamaIndex集成这是构建复杂AI应用的关键。LangChain和LlamaIndex等框架提供了编排链、管理上下文、连接外部数据源的能力。使用LangChain调用Ollama 首先安装必要库pip install langchain langchain-community。from langchain_community.llms import Ollama from langchain_core.prompts import ChatPromptTemplate # 1. 初始化Ollama LLM对象 llm Ollama(modelllama3:8b, base_urlhttp://localhost:11434) # 2. 直接调用 response llm.invoke(法国的首都是哪里) print(response) # 3. 使用PromptTemplate构建复杂对话 prompt ChatPromptTemplate.from_messages([ (system, 你是一个幽默的历史学家。), (user, {input}) ]) chain prompt | llm # LangChain表达式语言LCEL result chain.invoke({input: 告诉我关于罗马的有趣事实。}) print(result)使用LlamaIndex构建RAG检索增强生成系统 RAG能让模型基于你提供的私有文档如公司手册、个人笔记来回答问题。from llama_index.core import VectorStoreIndex, SimpleDirectoryReader from llama_index.llms.ollama import Ollama from llama_index.embeddings.huggingface import HuggingFaceEmbedding # 1. 设置本地LLM和Embedding模型 llm Ollama(modelllama3:8b, base_urlhttp://localhost:11434) # 使用一个本地运行的轻量级嵌入模型如BGE embed_model HuggingFaceEmbedding(model_nameBAAI/bge-small-zh-v1.5) # 2. 加载你的文档假设放在./data目录 documents SimpleDirectoryReader(./data).load_data() # 3. 创建索引 index VectorStoreIndex.from_documents( documents, embed_modelembed_model ) # 4. 创建查询引擎 query_engine index.as_query_engine(llmllm) # 5. 提问模型会基于你的文档回答 response query_engine.query(根据文档我们公司的年假政策是什么) print(response)5.3 构建一个简单的Web应用使用Gradio快速创建一个图形界面来与你的本地模型交互。import gradio as gr from langchain_community.llms import Ollama llm Ollama(modelqwen2:7b, base_urlhttp://localhost:11434) def respond(message, history): # history是Gradio自动管理的对话历史 full_prompt \n.join([fUser: {h[0]}\nAssistant: {h[1]} for h in history]) f\nUser: {message}\nAssistant: # 简单起见我们只将最新问题传给模型。生产环境应妥善处理历史。 response llm.invoke(message) return response # 创建聊天界面 demo gr.ChatInterface( fnrespond, title我的本地AI助手, description基于Qwen2-7B模型运行的本地对话AI。 ) if __name__ __main__: demo.launch(server_name0.0.0.0, server_port7860) # 允许局域网访问运行这段代码打开浏览器访问http://localhost:7860你就拥有了一个私有的ChatGPT风格界面。6. 高级配置与性能优化实战当你的应用从demo走向实际使用性能和稳定性就成为关键。6.1 配置启动参数以提升性能通过环境变量可以调整Ollama服务的行为。指定GPU层数对于大型模型你可以控制有多少层运行在GPU上其余在CPU以平衡显存使用。# Linux/macOS export OLLAMA_NUM_GPU20 # 让前20层使用GPU ollama run llama3:8b # Windows (PowerShell) $env:OLLAMA_NUM_GPU20 ollama run llama3:8b限制CPU线程数在CPU模式下可以指定使用的线程数。export OLLAMA_NUM_PARALLEL4自定义主机和端口ollama serve --host 0.0.0.0 --port 11435这会让API服务监听所有网络接口的11435端口方便同一网络下的其他设备调用。6.2 使用Docker部署Ollama生产环境推荐对于服务器部署Docker能提供更好的环境隔离和可维护性。# 使用官方镜像 docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama # 运行后在容器内拉取模型 docker exec -it ollama ollama pull llama3:8b # 或者在宿主机上通过API操作 curl http://localhost:11434/api/tags生产环境Docker Compose示例(docker-compose.yml)version: 3.8 services: ollama: image: ollama/ollama:latest container_name: ollama ports: - 11434:11434 volumes: - ./ollama_data:/root/.ollama # 挂载模型数据卷持久化存储 deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] # 使用GPU需要NVIDIA Container Toolkit restart: unless-stopped运行docker-compose up -d即可启动一个带GPU支持、数据持久化的Ollama服务。6.3 监控与日志查看服务日志# Linux (systemd) journalctl -u ollama -f # Docker docker logs -f ollama通过API获取信息curl http://localhost:11434/api/tags # 查看模型列表 curl http://localhost:11434/api/ps # 查看运行中的进程7. 常见问题与故障排查实录在这一部分我汇总了在实际部署和社区交流中最常遇到的那些“坑”并提供经过验证的解决方案。7.1 下载与安装问题问题1下载模型速度极慢或失败。这是最高频的问题尤其是对于国内用户。解决方案A修改镜像源Ollama本身不直接支持配置下载镜像但可以通过修改Hosts文件或使用代理解决。更根本的方法是手动下载GGUF文件。从Hugging Face Model Hub如TheBloke/Llama-3-8B-Instruct-GGUF找到对应模型的GGUF文件如llama-3-8b-instruct.Q4_K_M.gguf并下载到本地。创建一个Modelfile内容为FROM /绝对路径/到/你的/llama-3-8b-instruct.Q4_K_M.gguf执行ollama create my-llama3 -f ./Modelfile运行ollama run my-llama3解决方案B使用第三方工具有一些社区工具可以帮助加速下载例如ollama-proxy或ollama-mirror但使用时请注意安全性和合规性。问题2安装后运行ollama命令提示“找不到命令”。原因安装路径未添加到系统PATH环境变量。解决Windows重启终端或电脑。如果仍不行手动将Ollama的安装目录如C:\Users\YourName\AppData\Local\Programs\Ollama添加到用户环境变量PATH中。Linux/macOS通常安装脚本会自动处理。如果未处理可以手动添加export PATH$PATH:/usr/local/bin到你的shell配置文件如~/.bashrc或~/.zshrc然后执行source ~/.bashrc。7.2 运行与性能问题问题3运行模型时报错 “error: insufficient memory”。原因可用显存或内存不足。解决换用更小的模型或更低量化等级从70B换到7B从Q4换到Q3。使用CPU卸载通过OLLAMA_NUM_GPU环境变量减少GPU层数让部分层运行在CPU上。关闭不必要的程序释放被占用的显存。增加虚拟内存Windows在系统设置中增加页面文件大小。问题4模型响应速度非常慢CPU模式。原因纯CPU推理本身较慢尤其是大模型。解决确保使用量化模型Q4_K_M比FP16快得多体积也小得多。调整线程数通过OLLAMA_NUM_PARALLEL设置为你的CPU物理核心数。管理预期在CPU上7B模型每秒生成1-5个token是正常速度。复杂任务需要耐心。问题5模型输出胡言乱语或不符合指令。原因可能是量化损失过大如用了Q2_K或系统提示词未生效或模型本身在特定任务上能力不足。解决检查量化等级尝试ollama run llama3:8b:q4_0或更高精度版本。优化提示词在问题中给出更清晰、具体的指令。考虑使用Modelfile创建带有固定系统提示词的自定义模型。更换模型尝试不同的模型家族例如对于中文任务qwen2:7b通常比llama3:8b表现更好。7.3 集成与API问题问题6LangChain调用Ollama API超时或无响应。原因可能是Ollama服务未启动或网络端口被占用或请求负载过大。解决检查服务状态ollama serve确保服务在运行。curl http://localhost:11434看是否返回OK。检查端口冲突netstat -ano | findstr :11434(Windows) 或lsof -i:11434(Linux/macOS) 查看端口占用。调整超时设置在LangChain初始化时增加超时时间。from langchain_community.llms import Ollama llm Ollama( modelllama3:8b, base_urlhttp://localhost:11434, request_timeout120.0 # 将超时设为120秒 )问题7之前部署正常升级显卡驱动或系统后Ollama无法使用GPU。原因底层依赖如CUDA版本不兼容。解决重启Ollama服务sudo systemctl restart ollama(Linux) 或重启电脑 (Windows)。更新Ollama到官网下载最新版本安装包覆盖安装。检查CUDA兼容性确保你的显卡驱动版本支持当前Ollama内置的CUDA版本。可以尝试在Ollama的GitHub Issues中搜索相关错误信息。7.4 模型管理与存储问题问题8模型文件存储位置不对C盘空间告急。解决如前文所述通过设置OLLAMA_MODELS环境变量将其指向一个空间充足的分区。设置后需要将原有模型文件手动移动到新目录或重新拉取模型。问题9如何彻底卸载OllamaWindows在“设置-应用”中卸载并手动删除C:\Users\用户名\.ollama目录。Linuxsudo apt remove ollama(或sudo yum remove ollama)并删除~/.ollama和/usr/share/ollama目录。macOS将应用程序拖入废纸篓并删除~/.ollama目录。本地部署AI大模型尤其是使用Ollama这样优秀的工具已经从一个极客的玩具变成了开发者、创业团队甚至个人用户触手可及的能力。它解耦了AI能力与云服务将智能的“大脑”放在了离数据最近的地方。这个过程虽然会伴随硬件门槛和调优的挑战但带来的数据安全、成本可控和深度定制的优势对于许多场景而言是无可替代的。从今天开始尝试在你的机器上运行第一个本地模型开启一段全新的、自主可控的AI之旅吧。