CHIA:面向智能体软硬件协同设计的开源规范研究框架 CHIA面向智能体软硬件协同设计的开源规范研究框架英文原题CHIA: An open-source framework for principled, agentic AI-driven hardware/software co-designarXiv编号arXiv:2606.27350 [cs.AR]发布日期2026-06-25作者Angela Cui、Ferran Hermida-Rivera、Jack Toubes、Raghav Gupta、Jim Fang、Chengyi Lux Zhang、Ella Schwarz、Junha Kim、Yakun Sophia Shao、Borivoje Nikolić、Christopher W. Fletcher、Sagar Karandikar加州大学伯克利分校开源协议CC BY 4.0项目官网https://chialoops.ai摘要智能体人工智能在计算机体系结构、系统设计、编译器、VLSI超大规模集成电路等软硬件协同设计领域具备巨大创新提速潜力。但现阶段AI硬件设计方案均局限于独立小规模场景难以搭建、部署完整融合AI的软硬件开发全流程。本文提出开源框架CHIA面向敏捷、标准化的AI软硬件协同设计研究。CHIA将协同设计流程的快速搭建、分布式规模化部署作为核心一等设计目标。在CHIA中所有智能体驱动的软硬件设计流程统一抽象为CHIA循环CHIA Loop——有向环图结构图节点可调用片上系统工具、微架构仿真器、软件编译工具、各类大模型智能体、进化编码算法等组件。CHIA内置可复用组件库原生支持Chipyard、gem5、ChampSim、FireSim、Hammer、Vivado、AlphaEvolve、AdaEvolve等主流EDA与仿真工具节点。同时框架提供AI模型与硬件工具隔离、性能采集分析、分布式容错、异构集群高可靠执行等全套标准化实验能力可在上百台CPU/FPGA/GPU混合本地/公有云设备上完成可复现大规模协同设计实验。本文提供五大CHIA循环案例完整实验验证基于BOOM RTL自动生成高精度gem5微架构仿真模型LLM智能体在乱序超标量RISC-V处理器中自动实现ISA扩展RTL面向IPC吞吐率的智能体关键路径时序优化进化编码智能体驱动微架构自主探索面向仓库维护者友好的CIRCT编译器GitHub Issue自动修复。全部案例严格执行完整验证流程智能体生成RTL代码可完整跑完SPEC CPU2006全套25万亿指令测试同时在开源Sky130与商用16nm工艺下满足时序、面积约束并实现性能提升。本案例仅作为框架功能演示社区可基于CHIA拓展更多AI硬件协同设计流程。*同等贡献作者1 引言现代计算系统设计流程繁琐、人力成本极高。架构师、系统工程师、编译器研发人员、VLSI工程师需要在软件、微架构、物理实现多层抽象空间中完成海量设计探索跨层协同设计是行业核心痛点与研究机遇。近期智能体大模型技术大幅加速软硬件协同创新例如2025年相关工作利用AI自动生成缓存替换策略、从零搭建五级RISC-V处理器行业正式进入人类、仿真工具、AI智能体协同设计时代。但现有研究均为独立定制化流程存在四大核心缺陷简易胶水脚本脆弱、难以扩展无法支撑数百台异构机器大规模并行AI设计完全交由智能体调度全流程会破坏硬件设计必备验证校验机制人工评审成本极高现有进化、多智能体工具仅支持单一固定设计范式无法自定义任意协同设计流水线缺少统一平台用于对比、复用各类AI硬件设计方案制约领域整体进展。为此本文推出CHIA框架CHIA全称Co-designing Hardware/software with Intelligent Agents最初为Chipyard配套智能体工具后续拓展至全栈软硬件协同场景。框架核心设计思想将AI协同设计流水线本身作为核心优化对象所有设计流程抽象为CHIA有向循环图提供大量开箱即用工具节点降低大规模标准化实验门槛。本文五大案例覆盖仿真对齐、ISA扩展、时序优化、架构自动搜索、编译器自动化修复五大典型场景所有实验完整可复现框架近期将开源供社区使用。2 CHIA整体设计目标CHIA框架设计围绕大规模智能体协同实验需求设定五大核心设计目标2.1 支持大规模参数化并行设计流水线智能体可并行生成数十上百套硬件设计方案传统独立脚本无法支撑超大算力负载。CHIA基于图抽象实现参数化循环流程一键开启海量并行实验。2.2 异构资源弹性容错调度硬件设计任务时延跨度从毫秒至数天依赖FPGA、GPU、商用EDA授权等稀缺资源大规模集群下机器、进程频繁故障。CHIA支持动态分配逻辑工作节点故障自动重调度。2.3 模块化插件式工具集成不同项目使用仿真、综合、编译工具差异极大CHIA提供标准化节点接口各类EDA、仿真工具可无修改接入无需重构整体流程。2.4 混合调度能力代码智能体双控流水线控制分为静态程序分支、智能体自主决策分支两类。CHIA同时支持人工代码固定流程与LLM实时自适应调整流程可自由配置智能体决策权限。2.5 原生实验指标采集与分析AI硬件协同需要标准化对比指标。框架内置全链路性能采集、日志持久化能力自动记录节点耗时、资源占用、模型Token消耗、硬件PPA结果无需额外开发采集脚本。3 CHIA工作流核心抽象CHIA完整项目称为工作流Workflow由两大核心组件构成CHIA集群Cluster、CHIA循环Loop。集群定义硬件计算资源循环定义设计任务调度逻辑下文结合RTL自动生成示例完整讲解抽象模型。3.1 运行示例规范转RTL完整CHIA工作流示例目标输入硬件功能规范由LLM生成性能优于基准的RTL代码完成仿真验证与FPGA比特流构建完整四阶段流程输入准备提供基准RTL、硬件功能Prompt、单元测试用例智能体RTL实现调用Claude Code LLM节点生成硬件Chisel/Verilog代码多层仿真验证Verilator快速单元仿真、FireSim FPGA加速长基准仿真多云机器并行拆分测试性能评估仿真节点统计吞吐未达标则携带反馈重新迭代生成。集群资源配置本地硬件CPU1/2/3、FPGA1公有云AWS两台远程CPU机器逻辑工作节点LLM服务、Chisel编译、Verilator仿真、FireSim FPGA、Vivado比特流生成每个节点配置专属容器镜像与资源权限。3.2 CHIA集群Cluster集群是所有执行环境的集合负责管理物理设备、逻辑工作单元、容器隔离、公有云弹性算力。3.2.1 物理机器与逻辑工作节点物理机器本地服务器、AWS云主机、FPGA加速设备等底层硬件逻辑Worker虚拟化资源抽象单元定义容器镜像、所需软件资源Chipyard、Vivado授权、LLM密钥。CHIA基于Ray分布式调度引擎将循环中的任务节点匹配至具备对应资源的逻辑Worker。示例中FireSim Worker绑定FPGA资源标签仅部署至带FPGA物理机LLM Worker绑定Claude密钥资源。3.2.2 容器化隔离机制CHIA强制推荐容器部署Worker核心优势实验隔离LLM无法读取其他实验私有PDK、硬件源码避免数据泄露、实验污染环境一键部署Chipyard等环境原生搭建耗时1小时容器秒级启动跨设备可移植任意机器拉取镜像即可运行Vivado、gem5等工具无需预装软件。3.2.3 公有云混合集群集群同时纳管本地私有设备与AWS等公有云实例负载高峰自动扩容云算力闲置释放节省成本。示例中Verilator大规模测试任务拆分至两台AWS机器并行执行。3.3 CHIA循环LoopCHIA循环为Python实现的有向环任务调度图节点代表设计步骤边代表数据/控制流向分为程序边、智能体边两类。3.3.1 节点NodeCHIA节点为ChiaFunction装饰Python函数封装EDA编译、仿真、LLM调用、综合等操作定义资源标签运行所需GPU/FPGA/软件授权异步执行调用.chia_remote()立即返回Future对象天然支持并行统一管理单元故障重试、缓存、日志采集、进程监控均以节点为最小粒度。示例比特流构建节点内部调用Vivado自动收集综合时序、面积日志持久化至数据库。3.3.2 边Edge程序边Python代码显式调用节点固定执行流程如Chisel编译后固定执行Verilator智能体边LLM通过MCP工具自主调用节点流程由模型实时决策如LLM自主读写硬件源码、发起仿真。CHIA原生支持两类边混合编排灵活实现全自动智能探索、人工可控验证双模式。4 框架详细设计4.1 集群配置接口集群通过YAML配置文件定义核心配置项available_node_types所有逻辑Worker、容器镜像、资源标签、可运行物理主机IPprovider集群头节点地址aws_nodes公有云弹性实例配置worker_setup_commands容器初始化脚本auth远程机器登录凭证。集群CLI核心操作命令# 启动集群拉起云实例创建容器chia up Spec2RTL.yaml# 关闭集群释放资源chia down Spec2RTL.yaml# 动态扩容/重启故障节点chia up Spec2RTL--add4.2 循环编程接口CHIA循环核心原语ChiaFunction装饰器标记可分布式调度任务。4.2 程序节点与程序边# 示例Verilator仿真节点定义ChiaFunction(resourcesverilator:1)defverilator_run(test_case):# 编译仿真执行测试返回性能日志pass# 异步并行调用返回Futuresim_futureverilator_run.chia_remote(test_input)# 阻塞获取仿真结果resultsim_future.get()同步调用则本地进程执行不占用集群Worker。4.2.1 智能节点与MCP工具边CHIA基于FastMCP实现工具协议可将任意节点注册为LLM可调用工具创建ChiaTool对象重写setup函数ChiaTool.mcp.add_tool(fn.chia_remote_blocking)将分布式节点注册给智能体LLM可读取函数文档字符串作为工具描述自主调度读写硬件、仿真、综合节点。所有LLM内置prompt接口可批量注入可用工具列表模型基于工具集自主完成设计迭代。4.3 运行时核心能力4.3.1 Worker-物理机映射集群启动时全局负载均衡分配逻辑Worker至物理设备单台机器可部署多类Worker容器Worker仅分配具备对应硬件FPGA/GPU的主机。4.3.2 动态任务调度依托Ray分布式调度节点输入就绪、存在空闲资源时立即执行智能体流程任务动态不可预测调度器实时响应新增任务。4.3.3 分布式容错机制机器/Worker崩溃自动检测未完成任务重新入队调度chia up --add动态新增机器、恢复失效节点子进程追踪节点被终止时回收所有衍生Vivado/gem5进程杜绝资源泄漏。4.3.4 性能采集、缓存与旁路自动性能剖析所有ChiaFunction自动记录起止时间、Worker编号、自定义指标日志落盘并支持TensorBoard/Wandb可视化节点缓存任务结果持久化磁盘重复输入直接读取缓存跳过重跑旁路机制手动注入结果跳过耗时仿真/综合节点快速调试循环逻辑。4.4 CHIA内置工具组件库框架预装可直接复用节点与容器镜像覆盖全栈软硬件设计LLM智能体Claude、Gemini、AWS Bedrock、Ollama、vLLM、OpenRouterSoC开发Chipyard硬件编译器CIRCT、Firrtl编译器仿真器Verilator、gem5、ChampSim、FireSim验证工具RISC-V-torture、Spike协同仿真VLSI物理设计Hammer兼容多家商用ASIC CAD工具、Vivado存储数据库SQLite、Postgres、AWS S3仓库工具GitHub API。4.5 底层技术栈分布式底座Ray调度、容错、远程任务容器隔离DockerMCP工具协议FastMCP云SDKBoto3(AWS)、谷歌云客户端可视化TensorBoard、Weights Biases、GraphViz。5 五大完整实验案例含全步骤、参数、性能数据5.1 案例1基于BOOM RTL自动对齐生成gem5仿真器实验目标解决RTL与微架构仿真模型精度失配问题使用Claude Opus 4.6智能体迭代修改gem5核心代码对齐MediumBOOM双发射乱序处理器周期计数。完整CHIA循环实验步骤输入资源Chipyard MediumBOOM RTL、基准gem5 RISC-V乱序核心、Microbench训练测试集、Embench隐藏测试集迭代流程Agent读取gem5源码、Verilator RTL仿真周期日志修改gem5微架构结构参数与流水线逻辑批量运行36套Microbench仿真收集周期差异存入SQLite对比历史最优结果选择基准迭代下一轮新增Run Compare工具后Agent可本地小批量测试修改效果大幅减少退化迭代收敛结果共202轮迭代总墙钟时间10.5天训练集平均周期误差收敛至2.80%隐藏Embench测试集平均误差6.12%最终代码相较原始gem5差异1520行不含注释空行。LLM成本与Token数据指标单轮均值总消耗输入Token15130.3K缓存创建Token(估算)300K60M缓存读取Token(估算)14M3B输出Token119K23.9MAPI费用($)11.722355.98实验结论原生无工具迭代大量轮次出现精度退化为Agent开放仿真对比MCP工具后迭代质量显著提升。该CHIA循环可快速切换父代选择策略、Prompt模板、LLM参数并行对比多种优化方案。5.2 案例2LLM自动在MegaBOOM实现RISC-V ISA扩展实验对象RISC-V Bitmanip、Crypto、Zicond三类扩展4发射MegaBOOM乱序核心基于Sky130/商用16nm PDK评估面积、时序、SPEC性能。三阶段标准循环流程阶段1基础指令实现与小规模测试输入ISA规范、新增指令列表LLM生成RTL实现riscv-dv生成小规模指令测试Spike协同仿真校验并行启动随机测试生成、ASIC综合任务。阶段2 基础ISA回归校验执行上游官方RISC-V测试套件若基线程序报错返回阶段1修复代码。阶段3 大规模随机验证PPA评估海量随机混合指令协同仿真出现指令分歧自动回传调试信息至Agent全流程综合统计面积与时序无关键路径退化。机器资源开销Gantt占比随机仿真50%~66%总机器时长测试生成25%~33%RTL实现编译5%ASIC综合4%~10%。性能与面积结果Bitmanip扩展SPEC06几何平均加速5.6%Sky130面积增加2%16nm增加3%时序无退化Zicond扩展SPEC几何加速3.8%面积几乎无开销Crypto扩展OpenSSL加密吞吐量最高10倍提升Sky130面积5%。LLM消耗统计表扩展类型LLM迭代轮次总花费($)Bitmanip223.57Crypto646.24Zicond15.115.3 案例3IPC感知处理器关键路径时序优化实验目标基于Sky130综合时序报告由Agent重构BOOM流水线逻辑缩短关键路径同时最小IPC吞吐损失。实验完整流程输入Sky130门级综合时序报告LLM访问Chipyard代码库修改队列深度、流水线级数小规模Verilator仿真评估IPC并行运行综合工具获取频率、面积迭代至频率收敛最终迭代7实现95MHz基准仅47MHz全SPEC06验证IPC仅下降3.28理论铁律性能提升1.97倍。资源开销14轮迭代总API成本202.03美元商用16nm工艺仅首次优化有效后续改进无法泛化私有PDK数据不可输入公有大模型。5.4 案例4进化编码智能体微架构自主搜索实验框架SkyDiscoverAdaEvolve进化算法仿真配置ChampSim单核4GHz乱序处理器L1I 32KB 8路、L1D 48KB 8路、L2 512KB待进化预取器DRAM带宽3200MT/s。进化参数种群规模20、每轮并行1迭代Gemini混合大模型生成预取器代码CHIA提供统一评估节点自动并行执行DPC-4 AI负载仿真采集IPC、预取覆盖率反馈进化器。框架优势统一封装仿真、进化、数据库节点更换缓存、流水线等设计仅修改配置无需重写调度逻辑节点缓存可中断后快速恢复多天仿真任务。5.5 案例5CIRCT编译器GitHub Issue自动化修复实验场景LLM自动复现、修复CIRCT硬件编译器Bug生成合规PR降低开源维护人力消耗。完整循环步骤Issue分类过滤筛除需求、无代码、已有PR工单Agent评估区分可修复明确Bug、无解模糊问题可复现Bug生成复现脚本Agent修改源码全回归测试验证修复有效性生成PR初稿人工复核提交。16条工单实验结果9条判定非Bug/无解2条上游已修复剩余5条成功修复3条合并至官方主分支整套并行处理流程总耗时45分钟单工单修复平均API成本仅3.01美元。6 相关工作LLM生成RTL领域现有工具均为定制独立脚本无统一可复用实验平台难以横向对比不同Agent方案微架构自动搜索ArchAgent等依赖独立仿真集群缺少完整验证、PPA评估链路EDA自动化工具FluxEDA、MCP4EDA仅聚焦单一步骤无法构建完整循环流水线通用Agent调度框架Airflow、LangGraph缺少FPGA/GPU异构硬件资源调度、硬件仿真专用节点不适配VLSI大规模实验场景。CHIA填补领域空白提供硬件仿真、综合、LLM、进化算法一体化分布式实验底座。7 讨论与未来工作7.1 当前瓶颈AI快速生成RTL后大规模仿真、ASIC综合、功能验证成为整体耗时瓶颈仅靠并行无法完全解决。需开发轻量化基准、快速PPA预估工具。7.2 私有工艺数据限制商用先进工艺PDK涉密无法输入公有大模型Sky130开源工艺优化结果难以直接迁移至16nm等先进节点。未来框架增强本地私有化小模型部署能力隔离敏感硬件数据。7.3 长期规划持续迭代内置工具库接入更多HLS、形式化验证、架构探索节点开源完整代码、五大案例复现脚本、容器镜像对接行业AI硬件基准测试集支撑各类Agent公平对比实验。8 结论CHIA重构AI软硬件协同设计研发范式不再将智能体流程作为一次性定制脚本而是将流水线搭建、分布式可复现实验作为核心一等目标。框架以CHIA有向循环抽象各类AI硬件设计流程内置隔离、性能采集、分布式容错、异构集群调度全套能力。五大覆盖仿真对齐、ISA扩展、时序优化、架构进化、编译器修复的工业级案例验证框架实用性Agent生成RTL均可通过25万亿指令SPEC验证并满足面积时序约束。CHIA作为社区共享开源底座供架构、编译器、VLSI领域研究人员快速搭建、对比、拓展各类智能体协同设计流水线。