不追求最大模型——我们如何用10倍低的成本落地AI

低成本、高效率、易部署的技术路线与工程实践

Posted by chensong on 2026-06-08  ·  阅读约 7 分钟

</font>

<hr style=” border:solid; width:100px; height:1px;” color=#000000 size=1”>

目前开源AI项目

1、透明代理截获全量请求/响应,落盘 JSONL 以构建训练数据集LLMInteractionRecorderProxy项目收集请求线上大模型的数据集 2、clude_code: 项目代码编译器 3、PolyDistill:大模型知识蒸馏、小模型训练与推理优化工程实践 4、LLM 工程化 & Agent

前言

2026年初,我开始用Agent写了好几个项目。当时本地部署了Google的开源模型Gemma-3-27B,写了一些程序,用的都是本地提示词。但总感觉比不上线上模型的“智商”——本地模型返回的规划之类的内容,说不出的别扭,对Agent的支持不咋地,ReAct也经常翻车。

尤其有一个项目clude_code项目代码编译器,提示词我改了几十遍,稍微换一下输入说法,大模型输出的结果就出问题,特别折腾。

后来我尝试用一些领域数据做蒸馏,发现模型对Agent相关任务的支持开始慢慢变好了。于是我又做了透明代理截获全量请求/响应,落盘JSONL构建训练数据集(LLMInteractionRecorderProxy项目),用来收集线上大模型的请求数据。把这些数据加到自己的数据集里,再过滤清洗,然后在8B左右的小模型上做蒸馏。

效果还挺惊喜的——蒸馏出来的小模型,智能水平基本能赶上线上大模型。尤其是针对专业行业数据做了特征学习后,输出token速度非常丝滑,可以达到100 token/s以上。

所以我的体会是:AI Agent项目要真正落地,不能只靠调提示词。数据收集、知识蒸馏、领域模型、Agent框架、部署优化,这几样得捏在一起才有戏。

1. 技术路线图

从音视频、GPU 加速到大模型工程化,构建完整 AI 技术闭环。

在这里插入图片描述


2. 业界痛点

痛点 行业现状 解决方案
推理成本高 70B+ 模型依赖多卡集群,中小企业难以承担 通过知识蒸馏将能力迁移至 0.5B~7B 模型,成本降低 80%+
生成速度慢 大模型仅 20~50 Tokens/s,Agent 响应延迟明显 小模型 + vLLM + KV Cache 优化,可达到 150~500 Tokens/s
部署门槛高 模型体积数百 GB,GPU 要求高 INT4/AWQ/GPTQ 量化后单卡即可部署
领域知识缺失 通用模型无法理解企业内部知识 RAG + 专业数据集微调构建领域专家模型
Agent 效果不稳定 Tool Calling 容易失败 ReAct + Workflow + MCP 提升执行成功率
数据获取困难 高质量 SFT 数据成本高 API 透明代理自动沉淀训练数据
训练成本高 从零训练需要大量 GPU 蒸馏 + LoRA 微调降低训练成本
工程链路割裂 训练、推理、Agent 系统分散 打通 Data → Train → Distill → Infer → Agent 全链路
私有化困难 数据无法出企业内网 支持本地部署与离线推理
缺乏 AI Infra 能力 多数团队只会调用 API 提供完整 AI 基础设施建设能力

3. 技术方案

3.1 知识蒸馏 → 降成本

Teacher (70B+)  →  Student (0.5B ~ 14B)

推理成本降低 10~50 倍,消费级 GPU 可部署。

PolyDistill

3.2 领域模型 → 补知识

结合 FFmpeg / WebRTC / 流媒体 / GPU 加速积累,训练:

AudioVideo-0.6B / 4B / 7B       Agent 专项蒸馏模型

3.3 Agent 平台 → 建智能体

在这里插入图片描述

内容理解、智能处理、工具调用(FFmpeg / WebRTC / GPU 服务)自动协作。

3.4 推理优化 → 提速度

vLLM / TensorRT-LLM / SGLang · Continuous Batching · INT8/INT4 量化

提升 GPU 利用率与 Tokens/s,降低部署成本。

3.5 AI RTC → 落场景

在这里插入图片描述

AI 会议助手 · AI 客服 · AI 数字人


4. 项目路线图

# 项目 产出
1 PolyDistill 知识蒸馏平台 通用蒸馏框架,多架构 Teacher→Student
2 领域模型训练 AudioVideo 系列、Agent 专项蒸馏模型
3 音视频 Agent 平台 感知→思考→行动闭环,工具调用编排
4 推理优化 & AI Infra 量化模型、高并发推理、GPU 资源优化
5 AI RTC ASR+LLM+TTS+WebRTC 实时交互系统

5. 技术闭环

在这里插入图片描述

不追求最大模型,追求最低成本、最高效率、最易部署服务真实场景。

总结

LLM 工程化 & Agent (该项目是从 数据采集-> 知识蒸馏 -> 领域模型训练 -> 推理优化 -> Agent 平台 -> AI RTC 部署 整套技术闭环)