AI 应用技术

前言

梳理下自己在 AI 产品开发中用到的一些工程技术，只会做工程了属于是，算法方面的东西基本上不懂。

列下我做过的东西：

Code Review Agent
Long term memory
Dify 二开
Rag 流程

语言技术：

Python
Nodejs
Go

Agent 框架：

Langchain
React Agent
Function calling

总结下来基本上都是常规的 web 技术栈，只是多了一个与 LLM 交互的环节。本文从工程与算法两层来总结梳理自己了解到的东西

关系

工程与模型的关系，有点像是算法里的复杂度控制：空间换时间，时间换空间，性能换效率，效率换性能

工程是重点不是难点，模型是难点不是重点毕竟能搞模型的就那么几家公司

工程

起步：与 LLM 交互

唯有提示词，就像圣经里能唯一与上帝交流传话的那个家伙。

形式上有 stream blocking。

通信载体几乎是基于：Http，无非是协议上多了一些 sse streamable 返回等。

Agent 范式

React 一直是比较经典的范式，很多其他模式也是基于这个演化的

早期 React 范式的实现，全部依赖提示词，比如 Function 描述，工具返回内容的格式，Stop 策略等一股脑的都会拼接到提示词上，然后返回内容的解析也会根据一些约定标记等做信息提取

中期这些内容被大模型公司给 Native 了，做到模型内部了： function call api 规范

当前是被 MCP 协议规范了，当然底层还是基于 funciton call 的能力包装的标准协议

后期可能会有更多模型即 agent 的 native 处理。当周边工程做的比较成熟，也有一定规模时候，模型层面可能会将他 native 化。所以创业公司太难了，好的创意好的产品说不定就被模型本身取代了

多 Agent 进化

多 Agent 目前还是停留概念形式上，能落地的地方很少。因为 LLM 本身就是概率模型，而单个 Agent 里已经有很多不确定，再有多个Agent 则将不确定成倍叠加了。

Rag

Rag 是典型的 demo 很简单调优很魔鬼的技术方案。一些我知道的场景及方案。

长文本

切片规则：父子文档，分片编号，多召回，重排等

长记忆

基于图，知识图谱优化记忆关系
记录时间，优化日程型记忆

向量/关键词

提取关键词，关键词搜索
向量语义搜索（稀疏/稠密）
混合

精排

找回后的重新排序等

一些技术形态的转换

我关注到 ppt 生成领域里，现在做的比较好的几家几乎都是通过 Html 技术而非传统的 .ppt格式来渲染的。未来可能都变成了基于HTMl渲染的形态了

思考下来也算合理因为HTML渲染技术非常成熟了，再结合当前硬件性能也比较好，LLM也能更好的生成内容。

有语曰：

打败你的不一定是你的同行，可能是离的远的其他行业

模型/算法

重要性不必多谈，属于 AI 应用的基石。基础能力决定上层形态，也是造成 AI 应用日新月异的根本原因。

作为一个合格的工程应用层面的人，我尽量梳理了，AI，机器学习，深度学习，神经网络等的概念。以及当下流行的 LLM 大概架构。这里列举下我看到的一些资料

llm 科普很直白的描述 llm 工作原理，比较好的是从基础的神经网络开始的，由浅入深
从零构建大模型更加全面的科普书，挺适合非专业人士。知其然，知其所以然。

一个合格的 AI 应用工程师

能在某个垂类场景里识别出问题优化，基础建设等进一步建设好几个平台：

数据：收集，标注
模型微调训练
推理服务部署/算力调度
Agent / Chat 应用创建

算是比较厉害的，可以称为AI应用架构师了

高质量开源项目

continuedev 一个做研发领域工具链的好项目包含 vscode 插件，cli 等

结语

有人说当前 AI 应用就是一阵风，很快就过去。我同意一半：他是一阵风，未来这些技术也会消失，但是好的产品及技术模式会沉淀下来。

它更像是历史上技术发展的一个缩影，都是发展迭代的，出现多，风光过，暗淡过，消失过。重要的是我们能在这轮风波里能体验过，不辜负过

前言#

关系#

工程#

起步：与 LLM 交互#

Agent 范式#

多 Agent 进化#

Rag#

长文本#

长记忆#

向量/关键词#

精排#

一些技术形态的转换#

模型/算法#

一个合格的 AI 应用工程师#

高质量开源项目#

结语#

前言

关系

工程