前言

梳理下自己在 AI 产品开发中用到的一些工程技术,只会做工程了属于是,算法方面的东西基本上不懂。

列下我做过的东西:

  • Code Review Agent
  • Long term memory
  • Dify 二开
  • Rag 流程

语言技术:

  • Python
  • Nodejs
  • Go

Agent 框架:

  • Langchain
  • React Agent
  • Function calling

总结下来基本上都是常规的 web 技术栈,只是多了一个 与 LLM 交互的环节。本文从工程与算法两层来总结梳理自己了解到的东西

关系

工程与模型的关系,有点像是算法里的复杂度控制:空间换时间,时间换空间,性能换效率,效率换性能

工程是重点不是难点,模型是难点不是重点毕竟能搞模型的就那么几家公司

工程

起步:与 LLM 交互

唯有提示词,就像圣经里能唯一与上帝交流传话的那个家伙。

形式上有 stream blocking。

通信载体几乎是基于:Http,无非是协议上多了一些 sse streamable 返回等。

Agent 范式

React 一直是比较经典的范式,很多其他模式也是基于这个演化的

早期 React 范式的实现,全部依赖提示词,比如 Function 描述,工具返回内容的格式,Stop 策略等一股脑的都会拼接到提示词上,然后返回内容的解析也会根据一些约定标记等做信息提取

中期这些内容被 大模型公司给 Native 了,做到模型内部了: function call api 规范

当前是被 MCP 协议规范了,当然底层还是基于 funciton call 的能力包装的标准协议

后期可能会有更多模型即 agent 的 native 处理。当周边工程做的比较成熟,也有一定规模时候,模型层面可能会将他 native 化。所以创业公司太难了,好的创意好的产品说不定就被模型本身取代了

多 Agent 进化

多 Agent 目前还是停留概念形式上,能落地的地方很少。因为 LLM 本身就是概率模型,而单个 Agent 里已经有很多不确定,再有多个Agent 则将不确定成倍叠加了。

Rag

Rag 是典型的 demo 很简单调优很魔鬼的技术方案。一些我知道的场景及方案。

长文本

  1. 切片规则:父子文档,分片编号,多召回,重排等

长记忆

  1. 基于图,知识图谱优化记忆关系
  2. 记录时间,优化日程型记忆

向量/关键词

  1. 提取关键词,关键词搜索
  2. 向量语义搜索(稀疏/稠密)
  3. 混合

精排

找回后的重新排序等

一些技术形态的转换

我关注到 ppt 生成领域里,现在做的比较好的几家几乎都是通过 Html 技术而非传统的 .ppt格式 来渲染的。未来可能都变成了基于HTMl渲染的形态了

思考下来也算合理 因为HTML渲染技术非常成熟了,再结合当前硬件性能也比较好,LLM也能更好的生成内容。

有语曰:

打败你的不一定是你的同行,可能是离的远的其他行业

模型/算法

重要性不必多谈,属于 AI 应用的基石。基础能力决定上层形态,也是造成 AI 应用日新月异的根本原因。

作为一个合格的工程应用层面的人,我尽量梳理了,AI,机器学习,深度学习,神经网络等的概念。以及当下流行的 LLM 大概架构。 这里列举下我看到的一些资料

  1. llm 科普 很直白的描述 llm 工作原理,比较好的是从基础的神经网络开始的,由浅入深
  2. 从零构建大模型 更加全面的科普书,挺适合非专业人士。知其然,知其所以然。

一个合格的 AI 应用工程师

能在某个垂类场景里识别出问题优化,基础建设等进一步建设好几个平台:

  1. 数据:收集,标注
  2. 模型微调训练
  3. 推理服务部署/算力调度
  4. Agent / Chat 应用创建

算是比较厉害的,可以称为AI应用架构师了

高质量开源项目

  1. continuedev 一个做研发领域工具链的好项目包含 vscode 插件,cli 等

结语

有人说当前 AI 应用就是一阵风,很快就过去。我同意一半:他是一阵风,未来这些技术也会消失,但是好的产品及技术模式会沉淀下来。

它更像是历史上技术发展的一个缩影,都是发展迭代的,出现多,风光过,暗淡过,消失过。重要的是我们能在这轮风波里能体验过,不辜负过