前言
梳理下自己在 AI 产品开发中用到的一些工程技术,只会做工程了属于是,算法方面的东西基本上不懂。
列下我做过的东西:
- Code Review Agent
- Long term memory
- Dify 二开
- Rag 流程
语言技术:
- Python
- Nodejs
- Go
Agent 框架:
- Langchain
- React Agent
- Function calling
总结下来基本上都是常规的 web 技术栈,只是多了一个 与 LLM 交互的环节。本文从工程与算法两层来总结梳理自己了解到的东西
关系
工程与模型的关系,有点像是算法里的复杂度控制:空间换时间,时间换空间,性能换效率,效率换性能
工程是重点不是难点,模型是难点不是重点毕竟能搞模型的就那么几家公司
工程
起步:与 LLM 交互
唯有提示词,就像圣经里能唯一与上帝交流传话的那个家伙。
形式上有 stream blocking。
通信载体几乎是基于:Http,无非是协议上多了一些 sse streamable 返回等。
Agent 范式
React 一直是比较经典的范式,很多其他模式也是基于这个演化的
早期 React 范式的实现,全部依赖提示词,比如 Function 描述,工具返回内容的格式,Stop 策略等一股脑的都会拼接到提示词上,然后返回内容的解析也会根据一些约定标记等做信息提取
中期这些内容被 大模型公司给 Native 了,做到模型内部了: function call api 规范
当前是被 MCP 协议规范了,当然底层还是基于 funciton call 的能力包装的标准协议
后期可能会有更多模型即 agent 的 native 处理。当周边工程做的比较成熟,也有一定规模时候,模型层面可能会将他 native 化。所以创业公司太难了,好的创意好的产品说不定就被模型本身取代了
多 Agent 进化
多 Agent 目前还是停留概念形式上,能落地的地方很少。因为 LLM 本身就是概率模型,而单个 Agent 里已经有很多不确定,再有多个Agent 则将不确定成倍叠加了。
Rag
Rag 是典型的 demo 很简单调优很魔鬼的技术方案。一些我知道的场景及方案。
长文本
- 切片规则:父子文档,分片编号,多召回,重排等
长记忆
- 基于图,知识图谱优化记忆关系
- 记录时间,优化日程型记忆
向量/关键词
- 提取关键词,关键词搜索
- 向量语义搜索(稀疏/稠密)
- 混合
精排
找回后的重新排序等
一些技术形态的转换
我关注到 ppt 生成领域里,现在做的比较好的几家几乎都是通过 Html 技术而非传统的 .ppt格式 来渲染的。未来可能都变成了基于HTMl渲染的形态了
思考下来也算合理 因为HTML渲染技术非常成熟了,再结合当前硬件性能也比较好,LLM也能更好的生成内容。
有语曰:
打败你的不一定是你的同行,可能是离的远的其他行业
模型/算法
重要性不必多谈,属于 AI 应用的基石。基础能力决定上层形态,也是造成 AI 应用日新月异的根本原因。
作为一个合格的工程应用层面的人,我尽量梳理了,AI,机器学习,深度学习,神经网络等的概念。以及当下流行的 LLM 大概架构。 这里列举下我看到的一些资料
一个合格的 AI 应用工程师
能在某个垂类场景里识别出问题优化,基础建设等进一步建设好几个平台:
- 数据:收集,标注
- 模型微调训练
- 推理服务部署/算力调度
- Agent / Chat 应用创建
算是比较厉害的,可以称为AI应用架构师了
高质量开源项目
- continuedev 一个做研发领域工具链的好项目包含 vscode 插件,cli 等
结语
有人说当前 AI 应用就是一阵风,很快就过去。我同意一半:他是一阵风,未来这些技术也会消失,但是好的产品及技术模式会沉淀下来。
它更像是历史上技术发展的一个缩影,都是发展迭代的,出现多,风光过,暗淡过,消失过。重要的是我们能在这轮风波里能体验过,不辜负过