毕设+学习AI日志

记录寒假期间的毕设和学习AI的东西

最后编辑于2026年02月03日

前言

在寒假期间要搞毕设,因为很快就要中期答辩,同时也为了我在简历上吹牛逼。然后为了找个AI相关的工作,也要不断学习AI和刷题,所以就每天记录下。


1.30

今天用阿里的qorder cil做了毕设项目的初始化,功能是真的强,全程我可以说完全没干预,就一直allow,后面叫他把嵌入模型改成bge-m3和加上reranker模型都问题。不过我还是要去慢慢看它的代码,毕竟AI乱写太常见了。

总结来说,它已经可以做到新建文件、读文件、改文件,以及完整项目的读取把控能力,感叹模型的性能之强。

明天应该要学习一会AI,再刷会leetcode。

  • 过一遍项目代码ocr模块的代码都没过完
  • 学习AI
  • 刷leetcode

1.31

今天没怎么干感觉,项目代码就略看了两个ai的ocr模块,学习ai和刷题是完全没动……

明天计划:

  • 开发完ocr模块,并测试

2.1

今天就测试了几个ocr模型,ppStructureV3、paddle-vl 1.5、Hunyuan-OCR、deepseek-ocr 2,最后发现paddle-vl 1.5和Hunyuan-OCR效果最好,不过我是已经部署测试了ppStructureV3,为了方便,就用paddle-vl 1.5了。

明天计划:

  • 开发完ocr模块,并测试(又是)

2.2

今天没怎么干活,陪语希和吃饭去了,不过问张俊然要了些测试数据。

明天计划:

  • 开发完ocr模块,并测试(对,还是)

2.3

今天没开发,去学AI了,看ai写的transformers完整架构的底层代码,看了大半。

明天计划:

  • 照旧……

2.4

今天就搞了一下提取结果的简单分析,发现混元的模型因为能根据我的设定来输出,好像更好用?之后再测试一下吧。

明天计划:

  • 完成ocr的结构化

2.5

今天大概推进了ocr的进度,选定了方案之后也算稳步推进,但是没做完……

明天计划:

  • 完成ocr的最小闭环系统

2.6

今天投了两份简历,没想到耗时好长,结果就是没做完开发……

但是也算编写完prompt了,等明天测试吧。

明天计划:

  • 完成ocr的最小闭环系统

2.7

今天搞了半天环境,1080ti还是太老了,awq加载不了。换gguf,结果llama-cpp-python太久没更新,底层的llama-cpp版本太老了,已经不支持qwen3了。

后面尝试自编译上面这两个东西,结果问题多多,多到我不想回忆了……睡觉前还开了个llama-cpp编译任务

明天计划:

  • 完成ocr的最小闭环系统(what can i say)

2.8

昨晚的编译任务果然失败了……😂😡😡

所以今天直接斥巨资购入5090其实是租的,果然单独跑都没问题了,但是两个模型一起跑就出错了,问了ai,加上我的判断,paddle和qwen模型环境冲突,😂😡,ai建议我搞两套环境,明天再搞吧。

明天计划:

  • 这回肯定能做完最小闭环系统

2.9

确实做完最小闭环系统了哦,之后就可以准备把demo代码写成正式代码了。

这一步还可以不用在服务器上面搞,可以省一点钱。(虽然报销,但是现在还是要我付的)

明天计划:

  • demo代码 -> 正式代码(肯定做不完)

2.10

确实没做完,也正常,内容太多了,demo代码耦合程度挺高的,想写成正式代码估计比较费劲。

但是也基本做完了,明天上机测试一下。

今天还在手机acode上搭建了完整的git + openssh + ssh_key的环境。虽然完全没用上

明天计划:

  • 上机测试新代码

2.11

果然还是得上机测试啊,有好几个小bug,拼写错误、没配pyproject.toml啥的,不过都顺利解决了。之后代码就完美地跑起来了。

不过vllm每次加载模型都好慢,我又是用几次就sleep,考虑要不换回transformers。

问了下ai,ai说vllm重加载应该比transformers快,因为从内存到显存比硬盘到显存快得多,但是我看终端,加载模型有一步特别慢,不知道这步重加载是否需要再做。

明天计划:

  • 确定哪一步加载特别慢,并决定是否需要换回transformers
  • 设计好ocr模型最终的数据结构并写进schema.py(应该需要保留图片的位置,text类型的是否直接拼接?是否需要获取/生成体检报告类型,比如血常规啥的?应该需要
  • 完善json2md的逻辑,目前不能处理中间有多格合并的情况

2.12

今天没干啥,试了一下codex的plan模式,感觉还可以。然后看了一下vllm的源码,它会报告sleep和wake_up的耗时,下次可以搞一下测试。就这些

明天计划:

  • 做完2.11的计划吧
  • 测试vllm重加载耗时

2.13

今天忙着坐车,也没干啥……看一下minimax 2.5的实测文章,做一个md编辑器,感觉确实很强啊,给出架构设计(甚至不是很清晰的架构设计),就做出来了。对现在的这种agent coding,感觉想用好,一定要给出清晰的行动方向和限制,比如让它以SDD(调研 - 架构 - 开发)的流程开发产品。搞得我想弄个了,但是好贵,希望能报销

明天计划:

  • 明天估计没什么空,投简历去吧

2.14

今天一点空没有,啥也没干,或者说就看了一下招聘……

明天计划: 因为太忙

2.15

今天也啥也没干,只能说太忙了。 其实有功夫就刷手机

明天计划:

也没有

2.16

过年了,新年快乐🎇

明天计划:

随缘

2.17

今天试了一下qwen code,感觉还行,每天有2000次免费调用,如果还不错的话,就能省一点钱了。

用来简单重构了一下ocr的ocr提取模块,挺简单的一个活,ai做得还行。

明天计划:

随缘,因为真没什么固定时间(

2.18

今天写了一点点代码,大概就是分离解耦ocr模型中一些硬编码的json读取路径,以支持不同ocr模型的json结果。(因为有点像换glm ocr 2,这个不需要两套环境)

明天计划:

随缘

2.19

今天就没开电脑,啥也没干。

明天计划:

出去玩,qbr来了

2.20

今天出去玩了,自然啥也没干。

明天计划:

  • 完成ocr模型的完整开发,即加上图片的保存

2.21

今天是加上了图片的保存,但是没做完数据的保存结构,schema.py还没怎么写,所以ocr还没开发完……

感觉自己开发效率太低了,ai code工具也不怎么会用,还停留在发消息给ai - 根据ai回答自己写,要强迫自己学一下更自动化的ai开发流程了。

明天计划:

  • 写完ocr的字段定义,最好想一下ner模块的开发计划(用来干嘛,怎么用,用什么实现)

2.22

几乎什么也没干,简单修改了一下ocr字段的定义,删除部分无用内容。

明天计划:

同上

2.23

也没干多少,投了一家简历,还是没写完ocr字段的定义

明天计划:

同上

2.24

今天和ai反复讨论了字段的定义和用处,最后发现,因为要入库,定义最终结构化的数据字段没太大意义。因为不同ocr的输出结构、扫描精度不同,所以需要在单独ocr类的内部将这些不同构的数据处理成同构的(包括表格结构化),然后再给下一步处理并入库,由此可见,更有意义的字段定义应该用在同构之后的ocr输出结果上。

然后这个字段定义写是写完了,但是ocrrunner的适配还没做(,感觉自己的效率太低了……寒假都快过去了,ocr部分居然还没做完……

明天计划:

  • 完成ocrrunner的适配,并进行测试

2.25

今天投简历去了,投了几家

明天几乎:

同上

2.26

今天也在投简历,感觉不会找不到工作吧(

明天计划:

明天应该还去投简历

2.27

今天确实去投简历了,投了电信等等。

明天计划:

明天返校,估计没什么时间写代码,看看投简历吧

2.28

今天也就投了一家,然后飞机又因为暴雨延误了,11点半才回到寝室。

不过今天字节给我打电话,说我是否考虑去另一个岗位,也是做ai开发的,我同意了,他就发笔试短信给我,要在3.3中午之前做了。我去牛客那里看了一下之前的,也就4道编程题,希望我能把握住吧。

明天计划:

明天估计要休息一下了,明晚去刷题吧,项目开发先缓一缓。(3.2晚还有一场美团的招聘直播,也有招ai的,到时候用手机挂着吧,刚好试试新买的懒人手机架)

参考


Licensed under CC BY-NC-SA 4.0
comments powered by Disqus