最后编辑于2026年02月03日

前言

在寒假期间要搞毕设，因为很快就要中期答辩，同时也为了我在简历上吹牛逼。然后为了找个AI相关的工作，也要不断学习AI和刷题，所以就每天记录下。

1.30

今天用阿里的qorder cil做了毕设项目的初始化，功能是真的强，全程我可以说完全没干预，就一直allow，后面叫他把嵌入模型改成bge-m3和加上reranker模型都问题。不过我还是要去慢慢看它的代码，毕竟AI乱写太常见了。

总结来说，它已经可以做到新建文件、读文件、改文件，以及完整项目的读取把控能力，感叹模型的性能之强。

明天应该要学习一会AI，再刷会leetcode。

~~过一遍项目代码~~ocr模块的代码都没过完
学习AI
刷leetcode

1.31

今天没怎么干感觉，项目代码就略看了两个ai的ocr模块，学习ai和刷题是完全没动……

明天计划：

开发完ocr模块，并测试

2.1

今天就测试了几个ocr模型，ppStructureV3、paddle-vl 1.5、Hunyuan-OCR、deepseek-ocr 2，最后发现paddle-vl 1.5和Hunyuan-OCR效果最好，不过我是已经部署测试了ppStructureV3，为了方便，就用paddle-vl 1.5了。

明天计划：

开发完ocr模块，并测试（又是）

2.2

今天没怎么干活，陪语希和吃饭去了，不过问张俊然要了些测试数据。

明天计划：

开发完ocr模块，并测试（对，还是）

2.3

今天没开发，去学AI了，看ai写的transformers完整架构的底层代码，看了大半。

明天计划：

照旧……

2.4

今天就搞了一下提取结果的简单分析，发现混元的模型因为能根据我的设定来输出，好像更好用？之后再测试一下吧。

明天计划：

完成ocr的结构化

2.5

今天大概推进了ocr的进度，选定了方案之后也算稳步推进，但是没做完……

明天计划：

完成ocr的最小闭环系统

2.6

今天投了两份简历，没想到耗时好长，结果就是没做完开发……

但是也算编写完prompt了，等明天测试吧。

明天计划：

完成ocr的最小闭环系统

2.7

今天搞了半天环境，1080ti还是太老了，awq加载不了。换gguf，结果llama-cpp-python太久没更新，底层的llama-cpp版本太老了，已经不支持qwen3了。

后面尝试自编译上面这两个东西，结果问题多多，多到我不想回忆了……~~睡觉前还开了个llama-cpp编译任务~~

明天计划：

完成ocr的最小闭环系统（what can i say）

2.8

昨晚的编译任务果然失败了……😂😡😡

所以今天直接斥巨资购入5090~~其实是租的~~，果然单独跑都没问题了，但是两个模型一起跑就出错了，问了ai，加上我的判断，paddle和qwen模型环境冲突，😂😡，ai建议我搞两套环境，明天再搞吧。

明天计划：

这回肯定能做完最小闭环系统

2.9

确实做完最小闭环系统了哦，之后就可以准备把demo代码写成正式代码了。

这一步还可以不用在服务器上面搞，可以省一点钱。（虽然报销，但是现在还是要我付的）

明天计划：

demo代码 -> 正式代码（肯定做不完）

2.10

确实没做完，也正常，内容太多了，demo代码耦合程度挺高的，想写成正式代码估计比较费劲。

但是也基本做完了，明天上机测试一下。

今天还在手机acode上搭建了完整的git + openssh + ssh_key的环境。~~虽然完全没用上~~

明天计划：

上机测试新代码

2.11

果然还是得上机测试啊，有好几个小bug，拼写错误、没配pyproject.toml啥的，不过都顺利解决了。之后代码就完美地跑起来了。

不过vllm每次加载模型都好慢，我又是用几次就sleep，考虑要不换回transformers。

问了下ai，ai说vllm重加载应该比transformers快，因为从内存到显存比硬盘到显存快得多，但是我看终端，加载模型有一步特别慢，不知道这步重加载是否需要再做。

明天计划：

确定哪一步加载特别慢，并决定是否需要换回transformers
设计好ocr模型最终的数据结构并写进schema.py（应该需要保留图片的位置，text类型的是否直接拼接？是否需要获取/生成体检报告类型，比如血常规啥的？应该需要
完善json2md的逻辑，目前不能处理中间有多格合并的情况

2.12

今天没干啥，试了一下codex的plan模式，感觉还可以。然后看了一下vllm的源码，它会报告sleep和wake_up的耗时，下次可以搞一下测试。~~就这些~~

明天计划：

做完2.11的计划吧
测试vllm重加载耗时

2.13

今天忙着坐车，也没干啥……看一下minimax 2.5的实测文章，做一个md编辑器，感觉确实很强啊，给出架构设计（甚至不是很清晰的架构设计），就做出来了。对现在的这种agent coding，感觉想用好，一定要给出清晰的行动方向和限制，比如让它以SDD（调研 - 架构 - 开发）的流程开发产品。搞得我想弄个了，但是好贵，~~希望能报销~~

明天计划：

明天估计没什么空，投简历去吧

2.14

今天一点空没有，啥也没干，或者说就看了一下招聘……

明天计划：无~~因为太忙~~

2.15

今天也啥也没干，只能说太忙了。 ~~其实有功夫就刷手机~~

明天计划：

也没有

2.16

过年了，新年快乐🎇

明天计划：

随缘

2.17

今天试了一下qwen code，感觉还行，每天有2000次免费调用，如果还不错的话，就能省一点钱了。

用来简单重构了一下ocr的ocr提取模块，挺简单的一个活，ai做得还行。

明天计划：

随缘，因为真没什么固定时间（

2.18

今天写了一点点代码，大概就是分离解耦ocr模型中一些硬编码的json读取路径，以支持不同ocr模型的json结果。（因为有点像换glm ocr 2，这个不需要两套环境）

明天计划：

随缘

2.19

今天就没开电脑，啥也没干。

明天计划：

出去玩，qbr来了

2.20

今天出去玩了，自然啥也没干。

明天计划：

完成ocr模型的完整开发，即加上图片的保存

2.21

今天是加上了图片的保存，但是没做完数据的保存结构，schema.py还没怎么写，所以ocr还没开发完……

感觉自己开发效率太低了，ai code工具也不怎么会用，还停留在发消息给ai - 根据ai回答自己写，要强迫自己学一下更自动化的ai开发流程了。

明天计划：

写完ocr的字段定义，最好想一下ner模块的开发计划（用来干嘛，怎么用，用什么实现）

2.22

几乎什么也没干，简单修改了一下ocr字段的定义，删除部分无用内容。

明天计划：

同上

2.23

也没干多少，投了一家简历，还是没写完ocr字段的定义

明天计划：

同上

2.24

今天和ai反复讨论了字段的定义和用处，最后发现，因为要入库，定义最终结构化的数据字段没太大意义。因为不同ocr的输出结构、扫描精度不同，所以需要在单独ocr类的内部将这些不同构的数据处理成同构的（包括表格结构化），然后再给下一步处理并入库，由此可见，更有意义的字段定义应该用在同构之后的ocr输出结果上。

然后这个字段定义写是写完了，但是ocrrunner的适配还没做（，感觉自己的效率太低了……寒假都快过去了，ocr部分居然还没做完……

明天计划：

完成ocrrunner的适配，并进行测试

2.25

今天投简历去了，投了几家

明天几乎：

同上

2.26

今天也在投简历，感觉不会找不到工作吧（

明天计划：

明天应该还去投简历

2.27

今天确实去投简历了，投了电信等等。

明天计划：

明天返校，估计没什么时间写代码，看看投简历吧

2.28

今天也就投了一家，然后飞机又因为暴雨延误了，11点半才回到寝室。

不过今天字节给我打电话，说我是否考虑去另一个岗位，也是做ai开发的，我同意了，他就发笔试短信给我，要在3.3中午之前做了。我去牛客那里看了一下之前的，也就4道编程题，希望我能把握住吧。

明天计划：

明天估计要休息玩一下了，明晚去刷题吧，项目开发先缓一缓。（3.2晚还有一场美团的招聘直播，也有招ai的，到时候用手机挂着吧，刚好试试新买的懒人手机架）

3.1

今天果然玩了一天😂，不过晚上还是看了下题的。

明天计划：

没什么好说的，疯狂刷题吧

3.2

今天没玩了，刷了一天题，做了2024年的真题，感觉还比较简单。不过我现在比较担心的是，这个岗位是客户端方向，一般都是要Java/Kt、Android，我是一点没接触过，到时候再说吧。

明天计划：

早点起来，吃个早餐，然后考试！

3.3

今天早上12点半开始考，前3题还挺简单，但是第一题的一个特殊点我当时死活想不到（就是A - a只需要变一次大小写），通过率只有83%。

第二题的题目挺长，但是限制太宽松，让我很难绷，因为我直接读取题目输入，然后什么处理都没有，直接输出，全OA😋（话说这种偷鸡会不会被降分啊，但是我实在没搞懂这么宽松怎么写）。

第三题挺简单的，考完就忘，好像一两次就全OA了，简单到没印象。

第四题就挺难的，看题目感觉就有可能是单纯考数学，但是我想不出来，所以直接暴力模拟+建表查表，结果通过率18%……

就结果来看，好像还挺不错？但是实际有点虚啊，希望可以有面试吧。

顺带说一下，考完就玩了一下午，晚上也没学（

明天计划：

要开始做项目，不然面试的时候一问三不知就搞笑了

3.4

好吧，今天也没怎么搞，但是用qwen code + vibe coding（）搓了个tauri + react的hugo-helper出来，又得感慨现在ai真强啊，我除了在免费额度达每小时上限时自己搓了点代码（还是去问ai写的），就啥也没干，然后就有个没啥大bug的应用用，6的。

明天计划：

明天真得开始做项目了

3.5

今天字节给我打电话，说笔试过了，让我选个时间面试，那我肯定越晚越好，选13号了。

然后我也在邮件里面看到了岗位JD，果然要Android，不过好像会C++也行，虽然我C++几乎等于不会，毕竟啥也没做过，学的还是C98，只能让ai给我来个突击大补丸了。

邮件里面还有字节的招聘攻略，里面有写简历要点，面经分享啥的，好用。

下午简单搞了下hugo-helper，修了几个小bug，几乎完美了，虽然还有一个bug，但是ai怎么也修不好，不管了。

晚上就去搞项目了，用ai（对，还是qwen code）重构了html表格解析，逻辑是按codex给的思路写的（多ai这一块），还让ai写了测试代码，好像没啥问题？不过具体代码我还没看，明天早起看吧。

明天计划：

看重构代码
重构llm解析的template
思考ner和微调的事情

3.6

重构的代码看了一部分，没看完。然后template已经重构完了，明天应该能跑一遍测试了。

然后重点是ner，我和ai沟通了好一会，最后也不是很拿准用来干嘛，不过起码有一点是肯定的，ner能提取关键词。ai说能用来统一专有名词的不同表达，也能用来辅助提取用户提问的关键词，并以此做rag，ai说这个方案比较可以，但是我持怀疑态度。

晚上去搜了字节那个岗位的工资，在boss直聘上搜的，吓我一跳，足足是28-35k，我真是666，没投过这么高的，感觉我这项目没做完、深度不深、广度参水、c++还是约等于没有的人，可以说已经积极了，不过后面还是努力准备吧，毕竟字节的高薪岗位的面试不是到处都有的，心态放平~ ~~顺便一提，今天又没看c++~~

明天计划：

早上测试并让ai搞一下统一专有名词名称
下午再搞一下数据入库并测试
晚上就直接开学c++

3.7

今天测试了一下，居然只有一个小bug，有点出乎意料，简单修复之后就完美了。

然后和ai讨论了一下ner的问题，ner并不适合用来做概念的名词统一，根据我搜到的，paddlenlp可以用来做ner，就是提取关键词并分类，并且普通的llm也能做；然后可以用来做专有名词提取，但是普通llm也能做……还能同时设定它忽略类似“未见肿瘤”这样的健康信息，所以决定一个llm走到底了。~~llm真好用吧我说~~

另外关于模型部署的问题，现在决定改为使用qwen3-8b-vl-fp8模型，同时负责表格提取、表格外文本的关键信息提取、平常交谈，并且常驻显存，这样就可以将模型部署抽离成一个服务了。

不过名词统一，这个要建映射表，感觉太麻烦了，先忽略，搞个mvp再说。

晚上也看了一下c++，发现新c++连定义变量的推荐方式都变量，推荐用统一初始化了。~~但总的来说，没学多少~~

明天计划：

把llm部署抽离成服务，然后搞入库
继续学c++~~感觉学太慢了，之后还要看八股，不会来不及吧~~

3.8

上午做实验去了，没干啥，下午想去重构项目结构，发现真的难，所以那些架构师工资高也不是没有道理的。

我想要重构项目结构，并不是因为代码之间太耦合，我在开发时是有意识地避免太过于耦合，但是这是我第一次做这种中型项目，导致了好几个问题：

代码之间太多分离，导致层级太复杂，想修改一下逻辑得改好多地方（也说明我还不懂业务设计、代码的深层联系）
有几个目录根本不应该这样划分：
- 比如model目录，将微调逻辑代码放在后端？挺扯的，但是我就放了😓。
- 还有api目录，我其实现在都不知道为什么当时我弄出来这个文件夹，哪怕我的基础llm是http server的，也不需要api吧，我都没有复杂到需要包装成api还到处调用的东西。
- 也就instances和services有点用，前者是之前还没用基础llm接管全部业务的方案时创建的，就为了方便看创建模型的py文件在哪里；后者现在还算有点用，毕竟要走http server接管全部业务的方案

可能还有一些问题我没记下来，反正这些也够头疼了，不知道今天能做完重构不，晚上还得学c++呢。

后面突然发现用8b vl模型可能显存不够用……vl模型随对话次数显存占用增长挺快的，ocr模型又得用11g，但是8b fp8混合精度又加不了lora adapter，可能需要换成4b了。

3.9

今天去看招聘会了，投了四家，下午做了下代码重构，结果还是想法大于行动，没干多少……

晚上继续学，感觉有点多啊，c++没学一半，计网、os没看，八股没刷，项目甚至连半完工都算不上，要陪跑力。

明天计划：

明天必须完成代码重构和入库了
然后继续学

3.10

今天算是完成代码重构了，搞了一堆ai写的代码，还不如我上官网找示例代码然后让ai扩展，ai还是太喜欢自己瞎发挥了。

晚上继续学，感觉已经来不及看完c++的学习内容了，边看c++八股边学吧，还得学计网和os呢。

顺带一提，卓望给我发笔试链接了，还挺准时，3.12十点半前完成，不过就一个小时，几十道单选，几道多选，难度应该还行？

明天计划：

重构是做完了，但是入库还没做，早上搞一下吧
下午到晚上就得狠狠学了

3.11

早上搞了下项目，但是入库没做完，在优化prompt……

下午和晚上就一直学，学不完了呀😭。

明天计划：

早上考个笔试
其它时间全力学

3.12

早上7点起来，小学了一会，就去牛客考了一下卓望的笔试，35道单选，3道主观题。单选挺简单的，主观题就下面几道：

写带KV Cache的transformers解码部分，我代码不会写，写了原理
问大模型的幻觉现象、原因、解决方法，这个还行，简单编了下
问分类模型中，为什么F1 Score比准确率Acc更好，这个几乎不会，因为不知道F1 Score是什么😅

然后一直学到下午，c++还没学完，但是可喜可贺的是，已经学了7 80%😋，但是不幸的是，计网、os没看😭。原本还打算上午学完c++，下午开始学计网啥的，哎。我还得回顾一下之前的项目和让ai帮我搞份微调计划书（用来充充门面），要积极咯。

我现在的状态也许有6 70分，但是字节肯定要8 90分以上的，只能说白嫖一个面试了。

晚上就小小学了会c++，就基本学完了，但是多线程多进程没看，有点慌。之后就一直在看计网。

明天计划：

早早起来，继续学会计网，还有os，再让ai帮我分析一下吹水方法

3.13

今天早早起来准备了，然后就是面试，具体过程我写另一批文档里，就结果来说，还行，但是多线程多进程被拷打了，面试官人挺好的，也约到了二面，不过字节不少都是三面才挂，也许是还在泡鱼？

下午和晚上难得玩了会，还熬了会夜，明早直接晚晚起。

明天计划：

尽量早点起来，然后复盘面试，继续准备

3.14

今早差不多11点才起来😅下午和晚上又在捣鼓一个tauri软件，待办清单+知识库，结果简历没投，多线程没看，复盘没写完，项目没动，积极。

明天计划：

先写完复盘，然后投几份简历
下午考一下电信的笔试，其它时间就接着学

3.15

今天也早早起来了，但是简历忘投了，或者说想做出来个不错的数字再投，不过复盘是做完了，明天可以去问一下hr了。

下午一直在赶项目，其实上午大半时间也在赶，后面就去搞电信的笔试，这个笔试难度不大，但是贼麻烦，手机摄像头要一直开着，还有可能卡退，我是真的服了。

晚上稍微学了会线程进程，但是进度可以说为0，因为在测试体检报告提取管线，不停地修bug，只能说有一些bug必须要到生产环境才会暴露，我的电脑不去运行它，这些bug就一直看不到。

明天计划：

明天狠狠学，然后找个时间问一下hr，找他要点建议
核对测试结果，稍微改进代码，给简历加上好看的数字

3.16

花了一早上加半个下午的时间做完了测试，bug真不少啊，果然还得上实际生产环境才知道。什么图片路径读取错误、表格解析漏行、缺失路由分流啥的，之后再狠狠赶吧，明天面试，还打算问一下hr一些疑问。

之后的时间就一直在学了，~~其实晚上玩了会~~感觉学不完了啊，多线程多进程协程……东西好多。

明天计划：

上午找个时间问一下hr，记得录音，然后就猛猛准备吧
然后5点面试，二面应该不会挂我，挂也是三面吧

3.17

今天面试了，面试官应该是技术主管之类的人物，给人的感觉就是去管人的，他不太满意我没有互联网实习经历，so……，应该是挂了。

晚上就玩去了，又熬夜了。

明天计划：

恢复投递，毕竟准备面试花了很多时间

3.18

今天十点半才起，然后下午去看了一场美团的招聘会，基本就没干啥正事，感觉自己还没从字节挂了的状态回复回来。

项目也没动，必须开始写了，还有计算机三级。

明天计划：

看看招聘，投投简历，学学三级
写项目

3.19

今天也没多早起，而且又花了很多时间看手机……项目也没动😂，不过手机小程序投了好几家，招聘会也投了一家（嵌入式软件岗）。

明天计划：

同上

前言

1.30

1.31

2.1

2.2

2.3

2.4

2.5

2.6

2.7

2.8

2.9

2.10

2.11

2.12

2.13

2.14

2.15

2.16

2.17

2.18

2.19

2.20

2.21

2.22

2.23

2.24

2.25

2.26

2.27

2.28

3.1

3.2

3.3

3.4

3.5

3.6

3.7

3.8

3.9

3.10

3.11

3.12

3.13

3.14

3.15

3.16

3.17

3.18

3.19

参考