最后编辑于2026年02月03日
前言
在寒假期间要搞毕设,因为很快就要中期答辩,同时也为了我在简历上吹牛逼。然后为了找个AI相关的工作,也要不断学习AI和刷题,所以就每天记录下。
1.30
今天用阿里的qorder cil做了毕设项目的初始化,功能是真的强,全程我可以说完全没干预,就一直allow,后面叫他把嵌入模型改成bge-m3和加上reranker模型都问题。不过我还是要去慢慢看它的代码,毕竟AI乱写太常见了。
总结来说,它已经可以做到新建文件、读文件、改文件,以及完整项目的读取把控能力,感叹模型的性能之强。
明天应该要学习一会AI,再刷会leetcode。
-
过一遍项目代码ocr模块的代码都没过完 - 学习AI
- 刷leetcode
1.31
今天没怎么干感觉,项目代码就略看了两个ai的ocr模块,学习ai和刷题是完全没动……
明天计划:
- 开发完ocr模块,并测试
2.1
今天就测试了几个ocr模型,ppStructureV3、paddle-vl 1.5、Hunyuan-OCR、deepseek-ocr 2,最后发现paddle-vl 1.5和Hunyuan-OCR效果最好,不过我是已经部署测试了ppStructureV3,为了方便,就用paddle-vl 1.5了。
明天计划:
- 开发完ocr模块,并测试(又是)
2.2
今天没怎么干活,陪语希和吃饭去了,不过问张俊然要了些测试数据。
明天计划:
- 开发完ocr模块,并测试(对,还是)
2.3
今天没开发,去学AI了,看ai写的transformers完整架构的底层代码,看了大半。
明天计划:
- 照旧……
2.4
今天就搞了一下提取结果的简单分析,发现混元的模型因为能根据我的设定来输出,好像更好用?之后再测试一下吧。
明天计划:
- 完成ocr的结构化
2.5
今天大概推进了ocr的进度,选定了方案之后也算稳步推进,但是没做完……
明天计划:
- 完成ocr的最小闭环系统
2.6
今天投了两份简历,没想到耗时好长,结果就是没做完开发……
但是也算编写完prompt了,等明天测试吧。
明天计划:
- 完成ocr的最小闭环系统
2.7
今天搞了半天环境,1080ti还是太老了,awq加载不了。换gguf,结果llama-cpp-python太久没更新,底层的llama-cpp版本太老了,已经不支持qwen3了。
后面尝试自编译上面这两个东西,结果问题多多,多到我不想回忆了……睡觉前还开了个llama-cpp编译任务
明天计划:
- 完成ocr的最小闭环系统(what can i say)
2.8
昨晚的编译任务果然失败了……😂😡😡
所以今天直接斥巨资购入5090其实是租的,果然单独跑都没问题了,但是两个模型一起跑就出错了,问了ai,加上我的判断,paddle和qwen模型环境冲突,😂😡,ai建议我搞两套环境,明天再搞吧。
明天计划:
- 这回肯定能做完最小闭环系统
2.9
确实做完最小闭环系统了哦,之后就可以准备把demo代码写成正式代码了。
这一步还可以不用在服务器上面搞,可以省一点钱。(虽然报销,但是现在还是要我付的)
明天计划:
- demo代码 -> 正式代码(肯定做不完)
2.10
确实没做完,也正常,内容太多了,demo代码耦合程度挺高的,想写成正式代码估计比较费劲。
但是也基本做完了,明天上机测试一下。
今天还在手机acode上搭建了完整的git + openssh + ssh_key的环境。虽然完全没用上
明天计划:
- 上机测试新代码
2.11
果然还是得上机测试啊,有好几个小bug,拼写错误、没配pyproject.toml啥的,不过都顺利解决了。之后代码就完美地跑起来了。
不过vllm每次加载模型都好慢,我又是用几次就sleep,考虑要不换回transformers。
问了下ai,ai说vllm重加载应该比transformers快,因为从内存到显存比硬盘到显存快得多,但是我看终端,加载模型有一步特别慢,不知道这步重加载是否需要再做。
明天计划:
- 确定哪一步加载特别慢,并决定是否需要换回transformers
- 设计好ocr模型最终的数据结构并写进schema.py(应该需要保留图片的位置,text类型的是否直接拼接?是否需要获取/生成体检报告类型,比如血常规啥的?应该需要
- 完善json2md的逻辑,目前不能处理中间有多格合并的情况
2.12
今天没干啥,试了一下codex的plan模式,感觉还可以。然后看了一下vllm的源码,它会报告sleep和wake_up的耗时,下次可以搞一下测试。就这些
明天计划:
- 做完2.11的计划吧
- 测试vllm重加载耗时
2.13
今天忙着坐车,也没干啥……看一下minimax 2.5的实测文章,做一个md编辑器,感觉确实很强啊,给出架构设计(甚至不是很清晰的架构设计),就做出来了。对现在的这种agent coding,感觉想用好,一定要给出清晰的行动方向和限制,比如让它以SDD(调研 - 架构 - 开发)的流程开发产品。搞得我想弄个了,但是好贵,希望能报销
明天计划:
- 明天估计没什么空,投简历去吧
2.14
今天一点空没有,啥也没干,或者说就看了一下招聘……
明天计划:
无因为太忙
2.15
今天也啥也没干,只能说太忙了。 其实有功夫就刷手机
明天计划:
也没有
2.16
过年了,新年快乐🎇
明天计划:
随缘
2.17
今天试了一下qwen code,感觉还行,每天有2000次免费调用,如果还不错的话,就能省一点钱了。
用来简单重构了一下ocr的ocr提取模块,挺简单的一个活,ai做得还行。
明天计划:
随缘,因为真没什么固定时间(
2.18
今天写了一点点代码,大概就是分离解耦ocr模型中一些硬编码的json读取路径,以支持不同ocr模型的json结果。(因为有点像换glm ocr 2,这个不需要两套环境)
明天计划:
随缘
2.19
今天就没开电脑,啥也没干。
明天计划:
出去玩,qbr来了
2.20
今天出去玩了,自然啥也没干。
明天计划:
- 完成ocr模型的完整开发,即加上图片的保存
2.21
今天是加上了图片的保存,但是没做完数据的保存结构,schema.py还没怎么写,所以ocr还没开发完……
感觉自己开发效率太低了,ai code工具也不怎么会用,还停留在发消息给ai - 根据ai回答自己写,要强迫自己学一下更自动化的ai开发流程了。
明天计划:
- 写完ocr的字段定义,最好想一下ner模块的开发计划(用来干嘛,怎么用,用什么实现)
2.22
几乎什么也没干,简单修改了一下ocr字段的定义,删除部分无用内容。
明天计划:
同上
2.23
也没干多少,投了一家简历,还是没写完ocr字段的定义
明天计划:
同上
2.24
今天和ai反复讨论了字段的定义和用处,最后发现,因为要入库,定义最终结构化的数据字段没太大意义。因为不同ocr的输出结构、扫描精度不同,所以需要在单独ocr类的内部将这些不同构的数据处理成同构的(包括表格结构化),然后再给下一步处理并入库,由此可见,更有意义的字段定义应该用在同构之后的ocr输出结果上。
然后这个字段定义写是写完了,但是ocrrunner的适配还没做(,感觉自己的效率太低了……寒假都快过去了,ocr部分居然还没做完……
明天计划:
- 完成ocrrunner的适配,并进行测试
2.25
今天投简历去了,投了几家
明天几乎:
同上
2.26
今天也在投简历,感觉不会找不到工作吧(
明天计划:
明天应该还去投简历
2.27
今天确实去投简历了,投了电信等等。
明天计划:
明天返校,估计没什么时间写代码,看看投简历吧
2.28
今天也就投了一家,然后飞机又因为暴雨延误了,11点半才回到寝室。
不过今天字节给我打电话,说我是否考虑去另一个岗位,也是做ai开发的,我同意了,他就发笔试短信给我,要在3.3中午之前做了。我去牛客那里看了一下之前的,也就4道编程题,希望我能把握住吧。
明天计划:
明天估计要休息玩一下了,明晚去刷题吧,项目开发先缓一缓。(3.2晚还有一场美团的招聘直播,也有招ai的,到时候用手机挂着吧,刚好试试新买的懒人手机架)