小邢哥 | 14年编程老炮,拆解技术脉络,记录程序员的进化史
Hello,我是小邢哥!
最近接手了公司内部大模型的开发需求,跟团队过方案时发现个怪象:不少刚入行的兄弟,简历上“数据结构”那栏写得挺溜,课本上的定义倒背如流。

可一到实际开发,比如怎么高效处理大模型的Token序列?模型千亿参数该怎么存? 立马就懵圈,不知道该翻哪个“武器库”。
这让我想起14年前刚摸键盘的自己。那时候也是看着书觉得懂了,一写代码就掉坑。
今天借着刚做完技术架构调整的热乎劲,咱们不聊枯燥的数学定义,我就以一个老炮的视角,用大白话把这事儿彻底说透。新手看完能懂,老手看完能通。
PS:好久没更文了,确实是忙。年底团队动荡、大模型团队裁员,被迫我这个团队接手大模型项目,关关难过关关过。借着工作调整的契机,咱们重启更新。关注小邢哥,跟着哥在AI时代不掉队!
咱们写代码,本质上就干两件事:存数据、用数据。 存用户账号、存订单流水、存大模型里那成千上万个Token……

数据结构说白了,就是给这些数据找个最合适的“收纳箱”。 这个箱子选得好不好,直接决定了你后续查、改、删数据是“秒开”还是“卡死”。
举个我当年的血泪史: 2011年我写学生管理系统,统共就30个学生,我直接用数组存——学号、姓名、成绩一一对应。想查第5个学生?直接按位置拿,又快又爽。
后来上班做订单系统,一天新增10万条订单。我也没多想,惯性思维继续用数组。结果老板说要在中间插入一条加急订单,服务器直接卡到报警! 为什么?因为数组是“连在一起的格子”,你在中间插一条,后面的几万条数据全都得往后挪一位。这谁顶得住?
后来我换成了链表,问题迎刃而解。链表就像串珠子,插入新数据时,只需要把线剪断,系个新珠子上去就行,根本不用挪动其他数据。
你看,代码没写错,是“箱子”选错了。 选对结构,效率拉满;选错结构,服务器崩盘。这就是数据结构的核心价值。

很多新手容易把这俩混为一谈,其实特别好区分:
举个最常见的哈希表:

结合我现在做的大模型给你讲:

我从不建议死记硬背“链表的节点结构体怎么写”,你只需要记住“什么场景选什么箱子”。吃透下面这5个,能应付80%的开发场景:
结构 | 一句话比喻 | 适合场景 | 不适合场景 |
数组 | 抽屉柜 | 查多改少、长度固定 | 频繁插入删除 |
链表 | 串珠子 | 频繁增删、长度不定 | 按位置随机查找 |
哈希表 | 贴标签的文件柜 | 按关键词精准查找 | 范围查询、排序 |
树 | 家谱图 | 排序、范围查询 | 简单存取 |
图 | 社交关系网 | 复杂关联关系 | 简单线性数据 |


14年下来,我见过太多“语法写得溜,一跑就卡壳”的代码。

这些问题,不是语法错了,是“内功”没练好,箱子选错了。
对于新手,我的建议是:别贪多,先练熟数组、链表、哈希表。 写代码时多问自己一句:“如果数据量翻10倍、100倍,我现在的这个结构还能扛得住吗?” 当你开始思考这个问题时,你就从“码农”开始向“工程师”进化了。
我现在做大模型开发,偶尔还会翻《数据结构与算法分析》。不是为了背定义,而是看大神们在面对极端复杂场景时,是怎么权衡利弊选结构的。
小邢哥碎碎念: 虽说我也在读研期间怼了一年多大模型,但到现在接手我们企业落地的,还得是实战出真知。大模型这块我也在摸索中前行,咱们可以一起交流。
这东西不是学会就丢的八股文,它是伴随你整个职业生涯的内功。从学生管理系统到电商高并发,再到如今的AI大模型,技术在变,数据结构的底层逻辑从未变过。

接下来我会继续更新“大模型开发之路”系列,下一篇咱们讲讲:选好了数据结构,怎么去理解主流算法呢?。
觉得有用的兄弟,点个赞/收藏转发搞起来,有疑问评论区见,新手别怕,哥尽量都讲大白话!