毕设+学习AI日志

记录寒假期间的毕设和学习AI的东西

最后编辑于2026年02月03日

前言

在寒假期间要搞毕设,因为很快就要中期答辩,同时也为了我在简历上吹牛逼。然后为了找个AI相关的工作,也要不断学习AI和刷题,所以就每天记录下。


1.30

今天用阿里的qorder cil做了毕设项目的初始化,功能是真的强,全程我可以说完全没干预,就一直allow,后面叫他把嵌入模型改成bge-m3和加上reranker模型都问题。不过我还是要去慢慢看它的代码,毕竟AI乱写太常见了。

总结来说,它已经可以做到新建文件、读文件、改文件,以及完整项目的读取把控能力,感叹模型的性能之强。

明天应该要学习一会AI,再刷会leetcode。

  • 过一遍项目代码ocr模块的代码都没过完
  • 学习AI
  • 刷leetcode

1.31

今天没怎么干感觉,项目代码就略看了两个ai的ocr模块,学习ai和刷题是完全没动……

明天计划:

  • 开发完ocr模块,并测试

2.1

今天就测试了几个ocr模型,ppStructureV3、paddle-vl 1.5、Hunyuan-OCR、deepseek-ocr 2,最后发现paddle-vl 1.5和Hunyuan-OCR效果最好,不过我是已经部署测试了ppStructureV3,为了方便,就用paddle-vl 1.5了。

明天计划:

  • 开发完ocr模块,并测试(又是)

2.2

今天没怎么干活,陪语希和吃饭去了,不过问张俊然要了些测试数据。

明天计划:

  • 开发完ocr模块,并测试(对,还是)

2.3

今天没开发,去学AI了,看ai写的transformers完整架构的底层代码,看了大半。

明天计划:

  • 照旧……

2.4

今天就搞了一下提取结果的简单分析,发现混元的模型因为能根据我的设定来输出,好像更好用?之后再测试一下吧。

明天计划:

  • 完成ocr的结构化

2.5

今天大概推进了ocr的进度,选定了方案之后也算稳步推进,但是没做完……

明天计划:

  • 完成ocr的最小闭环系统

2.6

今天投了两份简历,没想到耗时好长,结果就是没做完开发……

但是也算编写完prompt了,等明天测试吧。

明天计划:

  • 完成ocr的最小闭环系统

2.7

今天搞了半天环境,1080ti还是太老了,awq加载不了。换gguf,结果llama-cpp-python太久没更新,底层的llama-cpp版本太老了,已经不支持qwen3了。

后面尝试自编译上面这两个东西,结果问题多多,多到我不想回忆了……睡觉前还开了个llama-cpp编译任务

明天计划:

  • 完成ocr的最小闭环系统(what can i say)

2.8

昨晚的编译任务果然失败了……😂😡😡

所以今天直接斥巨资购入5090其实是租的,果然单独跑都没问题了,但是两个模型一起跑就出错了,问了ai,加上我的判断,paddle和qwen模型环境冲突,😂😡,ai建议我搞两套环境,明天再搞吧。

明天计划:

  • 这回肯定能做完最小闭环系统

2.9

确实做完最小闭环系统了哦,之后就可以准备把demo代码写成正式代码了。

这一步还可以不用在服务器上面搞,可以省一点钱。(虽然报销,但是现在还是要我付的)

明天计划:

  • demo代码 -> 正式代码(肯定做不完)

2.10

确实没做完,也正常,内容太多了,demo代码耦合程度挺高的,想写成正式代码估计比较费劲。

但是也基本做完了,明天上机测试一下。

今天还在手机acode上搭建了完整的git + openssh + ssh_key的环境。虽然完全没用上

明天计划:

  • 上机测试新代码

2.11

果然还是得上机测试啊,有好几个小bug,拼写错误、没配pyproject.toml啥的,不过都顺利解决了。之后代码就完美地跑起来了。

不过vllm每次加载模型都好慢,我又是用几次就sleep,考虑要不换回transformers。

问了下ai,ai说vllm重加载应该比transformers快,因为从内存到显存比硬盘到显存快得多,但是我看终端,加载模型有一步特别慢,不知道这步重加载是否需要再做。

明天计划:

  • 确定哪一步加载特别慢,并决定是否需要换回transformers
  • 设计好ocr模型最终的数据结构并写进schema.py(应该需要保留图片的位置,text类型的是否直接拼接?是否需要获取/生成体检报告类型,比如血常规啥的?应该需要
  • 完善json2md的逻辑,目前不能处理中间有多格合并的情况

2.12

今天没干啥,试了一下codex的plan模式,感觉还可以。然后看了一下vllm的源码,它会报告sleep和wake_up的耗时,下次可以搞一下测试。就这些

明天计划:

  • 做完2.11的计划吧
  • 测试vllm重加载耗时

2.13

今天忙着坐车,也没干啥……看一下minimax 2.5的实测文章,做一个md编辑器,感觉确实很强啊,给出架构设计(甚至不是很清晰的架构设计),就做出来了。对现在的这种agent coding,感觉想用好,一定要给出清晰的行动方向和限制,比如让它以SDD(调研 - 架构 - 开发)的流程开发产品。搞得我想弄个了,但是好贵,希望能报销

明天计划:

  • 明天估计没什么空,投简历去吧

2.14

今天一点空没有,啥也没干,或者说就看了一下招聘……

明天计划: 因为太忙

2.15

今天也啥也没干,只能说太忙了。 其实有功夫就刷手机

明天计划:

也没有

2.16

过年了,新年快乐🎇

明天计划:

随缘

2.17

今天试了一下qwen code,感觉还行,每天有2000次免费调用,如果还不错的话,就能省一点钱了。

用来简单重构了一下ocr的ocr提取模块,挺简单的一个活,ai做得还行。

明天计划:

随缘,因为真没什么固定时间(

2.18

今天写了一点点代码,大概就是分离解耦ocr模型中一些硬编码的json读取路径,以支持不同ocr模型的json结果。(因为有点像换glm ocr 2,这个不需要两套环境)

明天计划:

随缘

2.19

今天就没开电脑,啥也没干。

明天计划:

出去玩,qbr来了

2.20

今天出去玩了,自然啥也没干。

明天计划:

  • 完成ocr模型的完整开发,即加上图片的保存

2.21

今天是加上了图片的保存,但是没做完数据的保存结构,schema.py还没怎么写,所以ocr还没开发完……

感觉自己开发效率太低了,ai code工具也不怎么会用,还停留在发消息给ai - 根据ai回答自己写,要强迫自己学一下更自动化的ai开发流程了。

明天计划:

  • 写完ocr的字段定义,最好想一下ner模块的开发计划(用来干嘛,怎么用,用什么实现)

2.22

几乎什么也没干,简单修改了一下ocr字段的定义,删除部分无用内容。

明天计划:

同上

2.23

也没干多少,投了一家简历,还是没写完ocr字段的定义

明天计划:

同上

2.24

今天和ai反复讨论了字段的定义和用处,最后发现,因为要入库,定义最终结构化的数据字段没太大意义。因为不同ocr的输出结构、扫描精度不同,所以需要在单独ocr类的内部将这些不同构的数据处理成同构的(包括表格结构化),然后再给下一步处理并入库,由此可见,更有意义的字段定义应该用在同构之后的ocr输出结果上。

然后这个字段定义写是写完了,但是ocrrunner的适配还没做(,感觉自己的效率太低了……寒假都快过去了,ocr部分居然还没做完……

明天计划:

  • 完成ocrrunner的适配,并进行测试

2.25

今天投简历去了,投了几家

明天几乎:

同上

2.26

今天也在投简历,感觉不会找不到工作吧(

明天计划:

明天应该还去投简历

2.27

今天确实去投简历了,投了电信等等。

明天计划:

明天返校,估计没什么时间写代码,看看投简历吧

2.28

今天也就投了一家,然后飞机又因为暴雨延误了,11点半才回到寝室。

不过今天字节给我打电话,说我是否考虑去另一个岗位,也是做ai开发的,我同意了,他就发笔试短信给我,要在3.3中午之前做了。我去牛客那里看了一下之前的,也就4道编程题,希望我能把握住吧。

明天计划:

明天估计要休息一下了,明晚去刷题吧,项目开发先缓一缓。(3.2晚还有一场美团的招聘直播,也有招ai的,到时候用手机挂着吧,刚好试试新买的懒人手机架)

3.1

今天果然玩了一天😂,不过晚上还是看了下题的。

明天计划:

没什么好说的,疯狂刷题吧

3.2

今天没玩了,刷了一天题,做了2024年的真题,感觉还比较简单。不过我现在比较担心的是,这个岗位是客户端方向,一般都是要Java/Kt、Android,我是一点没接触过,到时候再说吧。

明天计划:

早点起来,吃个早餐,然后考试!

3.3

今天早上12点半开始考,前3题还挺简单,但是第一题的一个特殊点我当时死活想不到(就是A - a只需要变一次大小写),通过率只有83%。

第二题的题目挺长,但是限制太宽松,让我很难绷,因为我直接读取题目输入,然后什么处理都没有,直接输出,全OA😋(话说这种偷鸡会不会被降分啊,但是我实在没搞懂这么宽松怎么写)。

第三题挺简单的,考完就忘,好像一两次就全OA了,简单到没印象。

第四题就挺难的,看题目感觉就有可能是单纯考数学,但是我想不出来,所以直接暴力模拟+建表查表,结果通过率18%……

就结果来看,好像还挺不错?但是实际有点虚啊,希望可以有面试吧。

顺带说一下,考完就玩了一下午,晚上也没学(

明天计划:

要开始做项目,不然面试的时候一问三不知就搞笑了

3.4

好吧,今天也没怎么搞,但是用qwen code + vibe coding()搓了个tauri + react的hugo-helper出来,又得感慨现在ai真强啊,我除了在免费额度达每小时上限时自己搓了点代码(还是去问ai写的),就啥也没干,然后就有个没啥大bug的应用用,6的。

明天计划:

明天真得开始做项目了

3.5

今天字节给我打电话,说笔试过了,让我选个时间面试,那我肯定越晚越好,选13号了。

然后我也在邮件里面看到了岗位JD,果然要Android,不过好像会C++也行,虽然我C++几乎等于不会,毕竟啥也没做过,学的还是C98,只能让ai给我来个突击大补丸了。

邮件里面还有字节的招聘攻略,里面有写简历要点,面经分享啥的,好用。

下午简单搞了下hugo-helper,修了几个小bug,几乎完美了,虽然还有一个bug,但是ai怎么也修不好,不管了。

晚上就去搞项目了,用ai(对,还是qwen code)重构了html表格解析,逻辑是按codex给的思路写的(多ai这一块),还让ai写了测试代码,好像没啥问题?不过具体代码我还没看,明天早起看吧。

明天计划:

  • 看重构代码
  • 重构llm解析的template
  • 思考ner和微调的事情

3.6

重构的代码看了一部分,没看完。然后template已经重构完了,明天应该能跑一遍测试了。

然后重点是ner,我和ai沟通了好一会,最后也不是很拿准用来干嘛,不过起码有一点是肯定的,ner能提取关键词。ai说能用来统一专有名词的不同表达,也能用来辅助提取用户提问的关键词,并以此做rag,ai说这个方案比较可以,但是我持怀疑态度。

晚上去搜了字节那个岗位的工资,在boss直聘上搜的,吓我一跳,足足是28-35k,我真是666,没投过这么高的,感觉我这项目没做完、深度不深、广度参水、c++还是约等于没有的人,可以说已经积极了,不过后面还是努力准备吧,毕竟字节的高薪岗位的面试不是到处都有的,心态放平~ 顺便一提,今天又没看c++

明天计划:

  • 早上测试并让ai搞一下统一专有名词名称
  • 下午再搞一下数据入库并测试
  • 晚上就直接开学c++

3.7

今天测试了一下,居然只有一个小bug,有点出乎意料,简单修复之后就完美了。

然后和ai讨论了一下ner的问题,ner并不适合用来做概念的名词统一,根据我搜到的,paddlenlp可以用来做ner,就是提取关键词并分类,并且普通的llm也能做;然后可以用来做专有名词提取,但是普通llm也能做……还能同时设定它忽略类似“未见肿瘤”这样的健康信息,所以决定一个llm走到底了。llm真好用吧我说

另外关于模型部署的问题,现在决定改为使用qwen3-8b-vl-fp8模型,同时负责表格提取、表格外文本的关键信息提取、平常交谈,并且常驻显存,这样就可以将模型部署抽离成一个服务了。

不过名词统一,这个要建映射表,感觉太麻烦了,先忽略,搞个mvp再说。

晚上也看了一下c++,发现新c++连定义变量的推荐方式都变量,推荐用统一初始化了。但总的来说,没学多少

明天计划:

  • 把llm部署抽离成服务,然后搞入库
  • 继续学c++感觉学太慢了,之后还要看八股,不会来不及吧

3.8

上午做实验去了,没干啥,下午想去重构项目结构,发现真的难,所以那些架构师工资高也不是没有道理的。

我想要重构项目结构,并不是因为代码之间太耦合,我在开发时是有意识地避免太过于耦合,但是这是我第一次做这种中型项目,导致了好几个问题:

  • 代码之间太多分离,导致层级太复杂,想修改一下逻辑得改好多地方(也说明我还不懂业务设计、代码的深层联系)
  • 有几个目录根本不应该这样划分:
    • 比如model目录,将微调逻辑代码放在后端?挺扯的,但是我就放了😓。
    • 还有api目录,我其实现在都不知道为什么当时我弄出来这个文件夹,哪怕我的基础llm是http server的,也不需要api吧,我都没有复杂到需要包装成api还到处调用的东西。
    • 也就instances和services有点用,前者是之前还没用基础llm接管全部业务的方案时创建的,就为了方便看创建模型的py文件在哪里;后者现在还算有点用,毕竟要走http server接管全部业务的方案

可能还有一些问题我没记下来,反正这些也够头疼了,不知道今天能做完重构不,晚上还得学c++呢。

后面突然发现用8b vl模型可能显存不够用……vl模型随对话次数显存占用增长挺快的,ocr模型又得用11g,但是8b fp8混合精度又加不了lora adapter,可能需要换成4b了。

3.9

今天去看招聘会了,投了四家,下午做了下代码重构,结果还是想法大于行动,没干多少……

晚上继续学,感觉有点多啊,c++没学一半,计网、os没看,八股没刷,项目甚至连半完工都算不上,要陪跑力。

明天计划:

  • 明天必须完成代码重构和入库了
  • 然后继续学

3.10

今天算是完成代码重构了,搞了一堆ai写的代码,还不如我上官网找示例代码然后让ai扩展,ai还是太喜欢自己瞎发挥了。

晚上继续学,感觉已经来不及看完c++的学习内容了,边看c++八股边学吧,还得学计网和os呢。

顺带一提,卓望给我发笔试链接了,还挺准时,3.12十点半前完成,不过就一个小时,几十道单选,几道多选,难度应该还行?

明天计划:

  • 重构是做完了,但是入库还没做,早上搞一下吧
  • 下午到晚上就得狠狠学了

3.11

早上搞了下项目,但是入库没做完,在优化prompt……

下午和晚上就一直学,学不完了呀😭。

明天计划:

  • 早上考个笔试
  • 其它时间全力学

3.12

早上7点起来,小学了一会,就去牛客考了一下卓望的笔试,35道单选,3道主观题。单选挺简单的,主观题就下面几道:

  1. 写带KV Cache的transformers解码部分,我代码不会写,写了原理
  2. 问大模型的幻觉现象、原因、解决方法,这个还行,简单编了下
  3. 问分类模型中,为什么F1 Score比准确率Acc更好,这个几乎不会,因为不知道F1 Score是什么😅

然后一直学到下午,c++还没学完,但是可喜可贺的是,已经学了7 80%😋,但是不幸的是,计网、os没看😭。原本还打算上午学完c++,下午开始学计网啥的,哎。我还得回顾一下之前的项目和让ai帮我搞份微调计划书(用来充充门面),要积极咯。

我现在的状态也许有6 70分,但是字节肯定要8 90分以上的,只能说白嫖一个面试了。

晚上就小小学了会c++,就基本学完了,但是多线程多进程没看,有点慌。之后就一直在看计网。

明天计划:

  • 早早起来,继续学会计网,还有os,再让ai帮我分析一下吹水方法

3.13

今天早早起来准备了,然后就是面试,具体过程我写另一批文档里,就结果来说,还行,但是多线程多进程被拷打了,面试官人挺好的,也约到了二面,不过字节不少都是三面才挂,也许是还在泡鱼?

下午和晚上难得玩了会,还熬了会夜,明早直接晚晚起。

明天计划:

  • 尽量早点起来,然后复盘面试,继续准备

3.14

今早差不多11点才起来😅下午和晚上又在捣鼓一个tauri软件,待办清单+知识库,结果简历没投,多线程没看,复盘没写完,项目没动,积极。

明天计划:

  • 先写完复盘,然后投几份简历
  • 下午考一下电信的笔试,其它时间就接着学

3.15

今天也早早起来了,但是简历忘投了,或者说想做出来个不错的数字再投,不过复盘是做完了,明天可以去问一下hr了。

下午一直在赶项目,其实上午大半时间也在赶,后面就去搞电信的笔试,这个笔试难度不大,但是贼麻烦,手机摄像头要一直开着,还有可能卡退,我是真的服了。

晚上稍微学了会线程进程,但是进度可以说为0,因为在测试体检报告提取管线,不停地修bug,只能说有一些bug必须要到生产环境才会暴露,我的电脑不去运行它,这些bug就一直看不到。

明天计划:

  • 明天狠狠学,然后找个时间问一下hr,找他要点建议
  • 核对测试结果,稍微改进代码,给简历加上好看的数字

3.16

花了一早上加半个下午的时间做完了测试,bug真不少啊,果然还得上实际生产环境才知道。什么图片路径读取错误、表格解析漏行、缺失路由分流啥的,之后再狠狠赶吧,明天面试,还打算问一下hr一些疑问。

之后的时间就一直在学了,其实晚上玩了会感觉学不完了啊,多线程多进程协程……东西好多。

明天计划:

  • 上午找个时间问一下hr,记得录音,然后就猛猛准备吧
  • 然后5点面试,二面应该不会挂我,挂也是三面

3.17

今天面试了,面试官应该是技术主管之类的人物,给人的感觉就是去管人的,他不太满意我没有互联网实习经历,so……,应该是挂了。

晚上就玩去了,又熬夜了。

明天计划:

  • 恢复投递,毕竟准备面试花了很多时间

3.18

今天十点半才起,然后下午去看了一场美团的招聘会,基本就没干啥正事,感觉自己还没从字节挂了的状态回复回来。

项目也没动,必须开始写了,还有计算机三级。

明天计划:

  • 看看招聘,投投简历,学学三级
  • 写项目

3.19

今天也没多早起,而且又花了很多时间看手机……项目也没动😂,不过手机小程序投了好几家,招聘会也投了一家(嵌入式软件岗)。

明天计划:

同上

参考


Licensed under CC BY-NC-SA 4.0
comments powered by Disqus