最后编辑于2026年02月03日

前言

在寒假期间要搞毕设，因为很快就要中期答辩，同时也为了我在简历上吹牛逼。然后为了找个AI相关的工作，也要不断学习AI和刷题，所以就每天记录下。

1.30

今天用阿里的qorder cil做了毕设项目的初始化，功能是真的强，全程我可以说完全没干预，就一直allow，后面叫他把嵌入模型改成bge-m3和加上reranker模型都问题。不过我还是要去慢慢看它的代码，毕竟AI乱写太常见了。

总结来说，它已经可以做到新建文件、读文件、改文件，以及完整项目的读取把控能力，感叹模型的性能之强。

明天应该要学习一会AI，再刷会leetcode。

~~过一遍项目代码~~ocr模块的代码都没过完
学习AI
刷leetcode

1.31

今天没怎么干感觉，项目代码就略看了两个ai的ocr模块，学习ai和刷题是完全没动……

明天计划：

开发完ocr模块，并测试

2.1

今天就测试了几个ocr模型，ppStructureV3、paddle-vl 1.5、Hunyuan-OCR、deepseek-ocr 2，最后发现paddle-vl 1.5和Hunyuan-OCR效果最好，不过我是已经部署测试了ppStructureV3，为了方便，就用paddle-vl 1.5了。

明天计划：

开发完ocr模块，并测试（又是）

2.2

今天没怎么干活，陪语希和吃饭去了，不过问张俊然要了些测试数据。

明天计划：

开发完ocr模块，并测试（对，还是）

2.3

今天没开发，去学AI了，看ai写的transformers完整架构的底层代码，看了大半。

明天计划：

照旧……

2.4

今天就搞了一下提取结果的简单分析，发现混元的模型因为能根据我的设定来输出，好像更好用？之后再测试一下吧。

明天计划：

完成ocr的结构化

2.5

今天大概推进了ocr的进度，选定了方案之后也算稳步推进，但是没做完……

明天计划：

完成ocr的最小闭环系统

2.6

今天投了两份简历，没想到耗时好长，结果就是没做完开发……

但是也算编写完prompt了，等明天测试吧。

明天计划：

完成ocr的最小闭环系统

2.7

今天搞了半天环境，1080ti还是太老了，awq加载不了。换gguf，结果llama-cpp-python太久没更新，底层的llama-cpp版本太老了，已经不支持qwen3了。

后面尝试自编译上面这两个东西，结果问题多多，多到我不想回忆了……~~睡觉前还开了个llama-cpp编译任务~~

明天计划：

完成ocr的最小闭环系统（what can i say）

2.8

昨晚的编译任务果然失败了……😂😡😡

所以今天直接斥巨资购入5090~~其实是租的~~，果然单独跑都没问题了，但是两个模型一起跑就出错了，问了ai，加上我的判断，paddle和qwen模型环境冲突，😂😡，ai建议我搞两套环境，明天再搞吧。

明天计划：

这回肯定能做完最小闭环系统

2.9

确实做完最小闭环系统了哦，之后就可以准备把demo代码写成正式代码了。

这一步还可以不用在服务器上面搞，可以省一点钱。（虽然报销，但是现在还是要我付的）

明天计划：

demo代码 -> 正式代码（肯定做不完）

2.10

确实没做完，也正常，内容太多了，demo代码耦合程度挺高的，想写成正式代码估计比较费劲。

但是也基本做完了，明天上机测试一下。

今天还在手机acode上搭建了完整的git + openssh + ssh_key的环境。~~虽然完全没用上~~

明天计划：

上机测试新代码

2.11

果然还是得上机测试啊，有好几个小bug，拼写错误、没配pyproject.toml啥的，不过都顺利解决了。之后代码就完美地跑起来了。

不过vllm每次加载模型都好慢，我又是用几次就sleep，考虑要不换回transformers。

问了下ai，ai说vllm重加载应该比transformers快，因为从内存到显存比硬盘到显存快得多，但是我看终端，加载模型有一步特别慢，不知道这步重加载是否需要再做。

明天计划：

确定哪一步加载特别慢，并决定是否需要换回transformers
设计好ocr模型最终的数据结构并写进schema.py（应该需要保留图片的位置，text类型的是否直接拼接？是否需要获取/生成体检报告类型，比如血常规啥的？应该需要
完善json2md的逻辑，目前不能处理中间有多格合并的情况

2.12

今天没干啥，试了一下codex的plan模式，感觉还可以。然后看了一下vllm的源码，它会报告sleep和wake_up的耗时，下次可以搞一下测试。~~就这些~~

明天计划：

做完2.11的计划吧
测试vllm重加载耗时

2.13

今天忙着坐车，也没干啥……看一下minimax 2.5的实测文章，做一个md编辑器，感觉确实很强啊，给出架构设计（甚至不是很清晰的架构设计），就做出来了。对现在的这种agent coding，感觉想用好，一定要给出清晰的行动方向和限制，比如让它以SDD（调研 - 架构 - 开发）的流程开发产品。搞得我想弄个了，但是好贵，~~希望能报销~~

明天计划：

明天估计没什么空，投简历去吧

2.14

今天一点空没有，啥也没干，或者说就看了一下招聘……

明天计划：无~~因为太忙~~

2.15

今天也啥也没干，只能说太忙了。 ~~其实有功夫就刷手机~~

明天计划：

也没有

2.16

过年了，新年快乐🎇

明天计划：

随缘

2.17

今天试了一下qwen code，感觉还行，每天有2000次免费调用，如果还不错的话，就能省一点钱了。

用来简单重构了一下ocr的ocr提取模块，挺简单的一个活，ai做得还行。

明天计划：

随缘，因为真没什么固定时间（

2.18

今天写了一点点代码，大概就是分离解耦ocr模型中一些硬编码的json读取路径，以支持不同ocr模型的json结果。（因为有点像换glm ocr 2，这个不需要两套环境）

明天计划：

随缘

2.19

今天就没开电脑，啥也没干。

明天计划：

出去玩，qbr来了

2.20

今天出去玩了，自然啥也没干。

明天计划：

完成ocr模型的完整开发，即加上图片的保存

2.21

今天是加上了图片的保存，但是没做完数据的保存结构，schema.py还没怎么写，所以ocr还没开发完……

感觉自己开发效率太低了，ai code工具也不怎么会用，还停留在发消息给ai - 根据ai回答自己写，要强迫自己学一下更自动化的ai开发流程了。

明天计划：

写完ocr的字段定义，最好想一下ner模块的开发计划（用来干嘛，怎么用，用什么实现）

2.22

几乎什么也没干，简单修改了一下ocr字段的定义，删除部分无用内容。

明天计划：

同上

2.23

也没干多少，投了一家简历，还是没写完ocr字段的定义

明天计划：

同上

2.24

今天和ai反复讨论了字段的定义和用处，最后发现，因为要入库，定义最终结构化的数据字段没太大意义。因为不同ocr的输出结构、扫描精度不同，所以需要在单独ocr类的内部将这些不同构的数据处理成同构的（包括表格结构化），然后再给下一步处理并入库，由此可见，更有意义的字段定义应该用在同构之后的ocr输出结果上。

然后这个字段定义写是写完了，但是ocrrunner的适配还没做（，感觉自己的效率太低了……寒假都快过去了，ocr部分居然还没做完……

明天计划：

完成ocrrunner的适配，并进行测试

2.25

今天投简历去了，投了几家

明天几乎：

同上

2.26

今天也在投简历，感觉不会找不到工作吧（

明天计划：

明天应该还去投简历

2.27

今天确实去投简历了，投了电信等等。

明天计划：

明天返校，估计没什么时间写代码，看看投简历吧

2.28

今天也就投了一家，然后飞机又因为暴雨延误了，11点半才回到寝室。

不过今天字节给我打电话，说我是否考虑去另一个岗位，也是做ai开发的，我同意了，他就发笔试短信给我，要在3.3中午之前做了。我去牛客那里看了一下之前的，也就4道编程题，希望我能把握住吧。

明天计划：

明天估计要休息玩一下了，明晚去刷题吧，项目开发先缓一缓。（3.2晚还有一场美团的招聘直播，也有招ai的，到时候用手机挂着吧，刚好试试新买的懒人手机架）

毕设+学习AI日志

记录寒假期间的毕设和学习AI的东西

前言

1.30

1.31

2.1

2.2

2.3

2.4

2.5

2.6

2.7

2.8

2.9

2.10

2.11

2.12

2.13

2.14

2.15

2.16

2.17

2.18

2.19

2.20

2.21

2.22

2.23

2.24

2.25

2.26

2.27

2.28

参考