06-26 · LLM 最新论文速览 今日候选池88篇硬过滤 LLM 打分后通过评估23篇精选 Top-10另列 13 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1.AgentXAgentX: Towards Agent-Driven Self-Iteration of Industrial Recommender Systems评分9.1·方向cs.AI · Artificial Intelligence ·arxiv2606.26859· PDF AgentX 用 Brainstorm、Developing 等多智能体闭环自动生成、改代码并评估推荐系统 A/B 实验。多智能体系统推荐系统AgenticWorkflow工业部署摘要AgentX 面向工业推荐系统中“想法到上线”依赖人工工程师的瓶颈提出生产部署的多 agent 自迭代框架。系统闭环整合 Brainstorm、Developing、Evaluation 与 Harness EvolutionSGPO自动生成实验方案、改写生产代码、进行可靠性验证与安全 A/B 发布并将结果沉淀为结构化知识。其贡献在于把推荐算法迭代从人工线性扩展转向由证据、算力和历史实验驱动的持续自进化研发流程。评分细项rel 9.5 / nov 8.5 / prac 9.5 / author 7.52.RQGMThe Red Queen Gödel Machine: Co-Evolving Agents and Their Evaluators评分8.0·方向cs.MA · Multiagent Systems ·arxiv2606.26294· PDF 提出 RQGM把自改进智能体的验证器按 epoch 演化用非平稳 utility 搜索提升编码任务通过率。agentic workflow自改进智能体动态评估摘要本文指出现有自改进 agent 通常依赖固定评测器或基准难以适应目标随系统演化而变化的场景。作者提出 Red Queen Gödel MachineRQGM在 epoch 内保持评测准则稳定、在 epoch 边界允许 utility 演化从而支持非平稳目标下的递归自改进。实验显示在代码任务中加入 agent-as-a-judge 代码审查信号可超过既有 SOTA并减少 1.35–1.72 倍 token在论文写作/评审和奥赛证明生成/评分中也优于先前自改进方法。评分细项rel 8.5 / nov 8.5 / prac 7.5 / author 5.03.PsyCoTImproving General Role-Playing Agents via Psychology-Grounded Reasoning and Role-Aware Policy Optimization评分7.8·方向cs.CL · Computation and Language ·arxiv2606.27025· PDF Psy-CoT将角色回复拆成感知、共情和逻辑三步并用Role-Aware Policy Optimization抑制奖励黑客。智能体角色扮演强化学习后训练摘要面向任意自然语言角色设定构建通用扮演智能体仍困难传统 SFT 易停留在行为模仿、泛化差。论文提出 Psy-CoT将回应前推理分为互动感知、心理共情和逻辑构建使模型基于角色动态思考并提出 RAPO用 profile-token 互信息非对称加权梯度强化角色特异表达、抑制 reward hacking。CoSER、CharacterBench、CharacterEval 实验显示其角色一致性优于现有方法。评分细项rel 8.5 / nov 7.0 / prac 7.5 / author 6.04.SemStopSemantic Early-Stopping for Iterative LLM Agent Loops评分7.7·方向cs.AI · Artificial Intelligence ·arxiv2606.27009· PDF 用 draft embedding 余弦距离和质量 patience 窗口为 Writer-Critic LLM 循环做语义早停。多智能体LLM Agent推理成本摘要多智能体 LLM 循环通常依赖固定 max_iterations易在简单问题上浪费 token、在难题上过早截断。本文研究语义 early-stopping当连续草稿 embedding 语义变化和质量提升均趋停时终止。贡献包括给出确定终止与良定义性的形式证明设计复用完整轨迹与缓存 LLM judge 的低成本配对评估协议并在 HotpotQA 多跳 RAG 上验证无 judge 版本在质量持平下节省 38% operational tokens。评分细项rel 8.5 / nov 6.5 / prac 8.0 / author 5.05.JERPJoint Learning of Experiential Rules and Policies for Large Language Model Agents评分7.9·方向cs.AI · Artificial Intelligence ·arxiv2606.27136· PDF JERP用同一批交互轨迹同步更新经验规则池和LLM agent策略参数。LLM Agent策略学习经验规则摘要针对多步交互环境中 LLM agents 难以有效利用历史经验的问题本文提出 JERP从同一批交互轨迹中联合更新长期经验规则库与策略模型。决策时检索任务相关规则并结合交互历史提示 agent每轮结束后同时优化策略并通过对比当前 rollout 与成功参考轨迹修正规则。该机制使规则与演化中的策略保持一致并将稳定行为逐步吸收到模型中。在 AlfWorld 和 WebShop 上JERP 在复杂交互任务中稳定提升决策表现。评分细项rel 8.5 / nov 7.5 / prac 7.5 / author 6.06.CARVECARVE: Content-Aware Recurrent with Value Efficiency for Chunk-Parallel Linear Attention评分7.6·方向cs.CL · Computation and Language ·arxiv2606.27229· PDF 提出 CARVE 在线性注意力中仅沿 key 轴擦除保留 WY-form chunk solver 并降低 value 门控参数。线性注意力推理架构长上下文摘要本文指出主流 delta-rule recurrent 架构 GDN-2 存在 memory-blind gating、value 轴擦除浪费参数并阻碍 WY-form chunk solver 等问题。CARVE 采用“仅在 key 轴擦除”的原则证明其是保持 WY-form solver 有效的充要条件同时复用 recurrent 输出作为内容感知门控信号并以每头单标量替代 value 写门投影。在 1.3B、100B tokens 训练下CARVE 相比 GDN-2 降低 WikiText 困惑度领先多项常识推理与 RULER 检索基准且吞吐开销仅 0.4%、峰值内存降 13%、参数少 19%。评分细项rel 8.0 / nov 8.0 / prac 7.0 / author 5.07.CUGAFLOA Process Harness for Uplifting Legacy Workflows to Agentic BPM: Design and Realization in CUGA FLO评分7.8·方向cs.AI · Artificial Intelligence ·arxiv2606.27188· PDF CUGA FLO用TDF模型把TaskAgent、DecisionAgent、FlowAgent接入遗留BPM流程。Agentic Workflow多Agent业务流程摘要本文提出 process harness用于在不替换既有工作流引擎的情况下将传统流程升级为 Agentic BPM。该机制在确定性引擎外加入受策略约束的 agentic 层在关键控制点提供推理、适应与监督同时保持引擎对流程结构的控制。作者定义 TDF 模型包含 TaskAgent、DecisionAgent 与 FlowAgent并在 CUGA FLO 中实现借贷款审批案例展示任务执行、路由决策和合规覆盖等能力。评分细项rel 8.5 / nov 7.0 / prac 8.0 / author 5.08.TOPSTOPS: First-Principles Visual Token Pruning via Constructing Token Optimal Preservation Sets for Efficient MLLM Inference评分7.8·方向cs.AI · Artificial Intelligence ·arxiv2606.27161· PDF TOPS按任务相关性、信息覆盖和语义多样性做免训练MLLM视觉token剪枝。推理加速视觉Token剪枝MLLM摘要针对 MLLM 推理中视觉 token 过多带来的高计算开销本文从第一性原理重新刻画视觉 token pruning提出 Token Optimal Preservation Sets。作者基于信息论总结任务相关性、信息覆盖和语义多样性三项原则并提出无需训练、模型无关的 TOPS 模块。实验覆盖 7 个 MLLM backbone 与 14 个 benchmark在 LLaVA-NeXT 上可移除 77.8% 视觉 token同时保持甚至略超原性能显示其高效且可能缓解幻觉。评分细项rel 8.0 / nov 7.5 / prac 8.5 / author 6.09.KikoKiko: Programming Agents to Enact Interaction Protocols评分7.4·方向cs.MA · Multiagent Systems ·arxiv2606.26156· PDF Kiko 用协议驱动编程模型封装通信服务让 decision makers 选择兼容消息并保证协议合规。多智能体系统Agent编程协议建模摘要多智能体系统需要成员代理按协议交互并去中心化决策但现有编程模型难以连接内部决策逻辑与公开行为。Kiko提出一种基于协议的代理编程模型开发者通过一个或多个decision maker在合法决策中选择并协调待发送消息。其抽象底层通信服务支持常见决策模式使开发者专注业务逻辑。论文给出操作语义并证明Kiko代理满足协议合规性且可实现任意协议执行。评分细项rel 8.0 / nov 6.5 / prac 7.5 / author 5.510.SOLARSOLAR: AI-Powered Speed-of-Light Performance Analysis评分7.4·方向cs.MA · Multiagent Systems ·arxiv2606.26383· PDF SOLAR 将 PyTorch/JAX 转成 Affine Loop IR 与 einsum 图自动计算融合和 cache-aware SOL 性能上界。推理性能分析LLM工具链硬件优化PyTorch摘要深度学习模型在目标硬件上的理论最快速度及当前实现差距是软硬件和算法优化的核心。SOLAR自动从PyTorch和JAX源码推导并验证Speed-of-Light性能上界LLM前端将程序转为可执行Affine Loop IR并用输出比对验证确定性流程生成einsum图分析后端计算未融合、融合和cache-aware界限。实验覆盖KernelBench、JAX/Flax与机器人负载展示了优化空间分析、机会定位、跨平台探索和硬件配置等用途。评分细项rel 7.5 / nov 7.0 / prac 8.0 / author 6.5 速览 · 其他通过评估的工作13 篇一句话扫读按评分从高到低点击标题跳转 arxiv。cs.AI7.6When Does Combining Language Models Help? A Co-Failure Ceiling on Routing, Voting, and Mixture-of-Agents Across 67 Frontier Models· 用共错率β给路由、投票和Mixture-of-Agents建立组合收益上界证书。cs.AI7.5Diagnosing Task Insensitivity in Language Agents· Task-Perturbed NLL Optimization 用任务扰动对比正则提升语言 agent 对指令差异的敏感性。cs.MA7.1Instruction Bleed: Cross-Module Interference in Prompt-Composed Agentic Systems· 定义 compositional behavioral leakage用三通道扰动协议测量同一上下文中 prompt 模块干扰。cs.AI7.3Where Do CoT Training Gains Land in LLM based Agents?· 对比 prompt action 与 CoT action 后用 action-token 选择性 mask 改善 agent 域外泛化。q-fin.PM7.1Data-Driven Duration Management – Term Structure Forecasting Using Machine Learning· 用 DNS 因子降维、Autoencoder 提取宏观变量训练神经网络预测美欧零息曲线并驱动债券组合。cs.AI6.6Einstein World Models· Einstein World Models 让 LLM 在推理轨迹中调用视觉时序 rollout生成可检验反事实假设。cs.CL6.4MinGram: A Minimalist Unigram Tokenizer with High Compression and Competitive Morphological Alignment· MinGram用BPE种子词表、Hard EM最短路径和扁平剪枝简化Unigram tokenizer训练。cs.CV6.9Ask, Solve, Generate: Self-Evolving Unified Multimodal Understanding and Generation via Self-Consistency Rewards· ASG 用 Proposer-Solver-Generator 自博弈和 STE 难度信号从无标注图像训练统一多模态模型。cs.MA6.3Scientific discovery as meta-optimization: a combinatorial optimization case study· 用 LLM 生成目标函数并做 correlation-weighted voting在 3-SAT 算法发现中优化 MemComputing 目标。cs.CV6.8TMP: Tree-structured Mixed-policy Pruning for Large-scale Image Generation and Editing· TMP用Tree-structured Mixed-policy Pruning压缩MoE与DiT图像生成模型将HunyuanImage 80B剪到20B。cs.AI6.5Learning to Recover Task Experts from a Multi-Task Merged Model· ReTeX 从单个多任务合并 checkpoint 预测专家偏移并用 SVD 子空间残差识别任务。cs.CV6.1DanceOPD: On-Policy Generative Field Distillation· DanceOPD 用 on-policy generative field distillation 在 flow-matching 模型中组合 T2I 与局部/全局编辑能力。cs.CV6.5Paying More Attention to Visual Tokens in Self-Evolving Large Multimodal Models· VISE 用几何不变性奖励和语义不变性奖励正则化 LMM 解码器对视觉 token 的依赖。数据源arxiv.org · 评分与中文摘要由 LLM 自动生成仅供初筛参考