最后编辑于2026年02月03日
前言
在寒假期间要搞毕设,因为很快就要中期答辩,同时也为了我在简历上吹牛逼。然后为了找个AI相关的工作,也要不断学习AI和刷题,所以就每天记录下。
1.30
今天用阿里的qorder cil做了毕设项目的初始化,功能是真的强,全程我可以说完全没干预,就一直allow,后面叫他把嵌入模型改成bge-m3和加上reranker模型都问题。不过我还是要去慢慢看它的代码,毕竟AI乱写太常见了。
总结来说,它已经可以做到新建文件、读文件、改文件,以及完整项目的读取把控能力,感叹模型的性能之强。
明天应该要学习一会AI,再刷会leetcode。
-
过一遍项目代码ocr模块的代码都没过完 - 学习AI
- 刷leetcode
1.31
今天没怎么干感觉,项目代码就略看了两个ai的ocr模块,学习ai和刷题是完全没动……
明天计划:
- 开发完ocr模块,并测试
2.1
今天就测试了几个ocr模型,ppStructureV3、paddle-vl 1.5、Hunyuan-OCR、deepseek-ocr 2,最后发现paddle-vl 1.5和Hunyuan-OCR效果最好,不过我是已经部署测试了ppStructureV3,为了方便,就用paddle-vl 1.5了。
明天计划:
- 开发完ocr模块,并测试(又是)
2.2
今天没怎么干活,陪语希和吃饭去了,不过问张俊然要了些测试数据。
明天计划:
- 开发完ocr模块,并测试(对,还是)
2.3
今天没开发,去学AI了,看ai写的transformers完整架构的底层代码,看了大半。
明天计划:
- 照旧……
2.4
今天就搞了一下提取结果的简单分析,发现混元的模型因为能根据我的设定来输出,好像更好用?之后再测试一下吧。
明天计划:
- 完成ocr的结构化
2.5
今天大概推进了ocr的进度,选定了方案之后也算稳步推进,但是没做完……
明天计划:
- 完成ocr的最小闭环系统
2.6
今天投了两份简历,没想到耗时好长,结果就是没做完开发……
但是也算编写完prompt了,等明天测试吧。
明天计划:
- 完成ocr的最小闭环系统
2.7
今天搞了半天环境,1080ti还是太老了,awq加载不了。换gguf,结果llama-cpp-python太久没更新,底层的llama-cpp版本太老了,已经不支持qwen3了。
后面尝试自编译上面这两个东西,结果问题多多,多到我不想回忆了……睡觉前还开了个llama-cpp编译任务
明天计划:
- 完成ocr的最小闭环系统(what can i say)
2.8
昨晚的编译任务果然失败了……😂😡😡
所以今天直接斥巨资购入5090其实是租的,果然单独跑都没问题了,但是两个模型一起跑就出错了,问了ai,加上我的判断,paddle和qwen模型环境冲突,😂😡,ai建议我搞两套环境,明天再搞吧。
明天计划:
- 这回肯定能做完最小闭环系统
2.9
确实做完最小闭环系统了哦,之后就可以准备把demo代码写成正式代码了。
这一步还可以不用在服务器上面搞,可以省一点钱。(虽然报销,但是现在还是要我付的)
明天计划:
- demo代码 -> 正式代码(肯定做不完)
2.10
确实没做完,也正常,内容太多了,demo代码耦合程度挺高的,想写成正式代码估计比较费劲。
但是也基本做完了,明天上机测试一下。
今天还在手机acode上搭建了完整的git + openssh + ssh_key的环境。虽然完全没用上
明天计划:
- 上机测试新代码
2.11
果然还是得上机测试啊,有好几个小bug,拼写错误、没配pyproject.toml啥的,不过都顺利解决了。之后代码就完美地跑起来了。
不过vllm每次加载模型都好慢,我又是用几次就sleep,考虑要不换回transformers。
问了下ai,ai说vllm重加载应该比transformers快,因为从内存到显存比硬盘到显存快得多,但是我看终端,加载模型有一步特别慢,不知道这步重加载是否需要再做。
明天计划:
- 确定哪一步加载特别慢,并决定是否需要换回transformers
- 设计好ocr模型最终的数据结构并写进schema.py(应该需要保留图片的位置,text类型的是否直接拼接?是否需要获取/生成体检报告类型,比如血常规啥的?应该需要
- 完善json2md的逻辑,目前不能处理中间有多格合并的情况
2.12
今天没干啥,试了一下codex的plan模式,感觉还可以。然后看了一下vllm的源码,它会报告sleep和wake_up的耗时,下次可以搞一下测试。就这些
明天计划:
- 做完2.11的计划吧
- 测试vllm重加载耗时
2.13
今天忙着坐车,也没干啥……看一下minimax 2.5的实测文章,做一个md编辑器,感觉确实很强啊,给出架构设计(甚至不是很清晰的架构设计),就做出来了。对现在的这种agent coding,感觉想用好,一定要给出清晰的行动方向和限制,比如让它以SDD(调研 - 架构 - 开发)的流程开发产品。搞得我想弄个了,但是好贵,希望能报销
明天计划:
- 明天估计没什么空,投简历去吧
2.14
今天一点空没有,啥也没干,或者说就看了一下招聘……
明天计划:
无因为太忙
2.15
今天也啥也没干,只能说太忙了。 其实有功夫就刷手机
明天计划:
也没有
2.16
过年了,新年快乐🎇
明天计划:
随缘
2.17
今天试了一下qwen code,感觉还行,每天有2000次免费调用,如果还不错的话,就能省一点钱了。
用来简单重构了一下ocr的ocr提取模块,挺简单的一个活,ai做得还行。
明天计划:
随缘,因为真没什么固定时间(
2.18
今天写了一点点代码,大概就是分离解耦ocr模型中一些硬编码的json读取路径,以支持不同ocr模型的json结果。(因为有点像换glm ocr 2,这个不需要两套环境)
明天计划:
随缘
2.19
今天就没开电脑,啥也没干。
明天计划:
出去玩,qbr来了
2.20
今天出去玩了,自然啥也没干。
明天计划:
- 完成ocr模型的完整开发,即加上图片的保存
2.21
今天是加上了图片的保存,但是没做完数据的保存结构,schema.py还没怎么写,所以ocr还没开发完……
感觉自己开发效率太低了,ai code工具也不怎么会用,还停留在发消息给ai - 根据ai回答自己写,要强迫自己学一下更自动化的ai开发流程了。
明天计划:
- 写完ocr的字段定义,最好想一下ner模块的开发计划(用来干嘛,怎么用,用什么实现)
2.22
几乎什么也没干,简单修改了一下ocr字段的定义,删除部分无用内容。
明天计划:
同上
2.23
也没干多少,投了一家简历,还是没写完ocr字段的定义
明天计划:
同上
2.24
今天和ai反复讨论了字段的定义和用处,最后发现,因为要入库,定义最终结构化的数据字段没太大意义。因为不同ocr的输出结构、扫描精度不同,所以需要在单独ocr类的内部将这些不同构的数据处理成同构的(包括表格结构化),然后再给下一步处理并入库,由此可见,更有意义的字段定义应该用在同构之后的ocr输出结果上。
然后这个字段定义写是写完了,但是ocrrunner的适配还没做(,感觉自己的效率太低了……寒假都快过去了,ocr部分居然还没做完……
明天计划:
- 完成ocrrunner的适配,并进行测试
2.25
今天投简历去了,投了几家
明天几乎:
同上
2.26
今天也在投简历,感觉不会找不到工作吧(
明天计划:
明天应该还去投简历
2.27
今天确实去投简历了,投了电信等等。
明天计划:
明天返校,估计没什么时间写代码,看看投简历吧
2.28
今天也就投了一家,然后飞机又因为暴雨延误了,11点半才回到寝室。
不过今天字节给我打电话,说我是否考虑去另一个岗位,也是做ai开发的,我同意了,他就发笔试短信给我,要在3.3中午之前做了。我去牛客那里看了一下之前的,也就4道编程题,希望我能把握住吧。
明天计划:
明天估计要休息玩一下了,明晚去刷题吧,项目开发先缓一缓。(3.2晚还有一场美团的招聘直播,也有招ai的,到时候用手机挂着吧,刚好试试新买的懒人手机架)
3.1
今天果然玩了一天😂,不过晚上还是看了下题的。
明天计划:
没什么好说的,疯狂刷题吧
3.2
今天没玩了,刷了一天题,做了2024年的真题,感觉还比较简单。不过我现在比较担心的是,这个岗位是客户端方向,一般都是要Java/Kt、Android,我是一点没接触过,到时候再说吧。
明天计划:
早点起来,吃个早餐,然后考试!
3.3
今天早上12点半开始考,前3题还挺简单,但是第一题的一个特殊点我当时死活想不到(就是A - a只需要变一次大小写),通过率只有83%。
第二题的题目挺长,但是限制太宽松,让我很难绷,因为我直接读取题目输入,然后什么处理都没有,直接输出,全OA😋(话说这种偷鸡会不会被降分啊,但是我实在没搞懂这么宽松怎么写)。
第三题挺简单的,考完就忘,好像一两次就全OA了,简单到没印象。
第四题就挺难的,看题目感觉就有可能是单纯考数学,但是我想不出来,所以直接暴力模拟+建表查表,结果通过率18%……
就结果来看,好像还挺不错?但是实际有点虚啊,希望可以有面试吧。
顺带说一下,考完就玩了一下午,晚上也没学(
明天计划:
要开始做项目,不然面试的时候一问三不知就搞笑了
3.4
好吧,今天也没怎么搞,但是用qwen code + vibe coding()搓了个tauri + react的hugo-helper出来,又得感慨现在ai真强啊,我除了在免费额度达每小时上限时自己搓了点代码(还是去问ai写的),就啥也没干,然后就有个没啥大bug的应用用,6的。
明天计划:
明天真得开始做项目了
3.5
今天字节给我打电话,说笔试过了,让我选个时间面试,那我肯定越晚越好,选13号了。
然后我也在邮件里面看到了岗位JD,果然要Android,不过好像会C++也行,虽然我C++几乎等于不会,毕竟啥也没做过,学的还是C98,只能让ai给我来个突击大补丸了。
邮件里面还有字节的招聘攻略,里面有写简历要点,面经分享啥的,好用。
下午简单搞了下hugo-helper,修了几个小bug,几乎完美了,虽然还有一个bug,但是ai怎么也修不好,不管了。
晚上就去搞项目了,用ai(对,还是qwen code)重构了html表格解析,逻辑是按codex给的思路写的(多ai这一块),还让ai写了测试代码,好像没啥问题?不过具体代码我还没看,明天早起看吧。
明天计划:
- 看重构代码
- 重构llm解析的template
- 思考ner和微调的事情
3.6
重构的代码看了一部分,没看完。然后template已经重构完了,明天应该能跑一遍测试了。
然后重点是ner,我和ai沟通了好一会,最后也不是很拿准用来干嘛,不过起码有一点是肯定的,ner能提取关键词。ai说能用来统一专有名词的不同表达,也能用来辅助提取用户提问的关键词,并以此做rag,ai说这个方案比较可以,但是我持怀疑态度。
晚上去搜了字节那个岗位的工资,在boss直聘上搜的,吓我一跳,足足是28-35k,我真是666,没投过这么高的,感觉我这项目没做完、深度不深、广度参水、c++还是约等于没有的人,可以说已经积极了,不过后面还是努力准备吧,毕竟字节的高薪岗位的面试不是到处都有的,心态放平~ 顺便一提,今天又没看c++
明天计划:
- 早上测试并让ai搞一下统一专有名词名称
- 下午再搞一下数据入库并测试
- 晚上就直接开学c++
3.7
今天测试了一下,居然只有一个小bug,有点出乎意料,简单修复之后就完美了。
然后和ai讨论了一下ner的问题,ner并不适合用来做概念的名词统一,根据我搜到的,paddlenlp可以用来做ner,就是提取关键词并分类,并且普通的llm也能做;然后可以用来做专有名词提取,但是普通llm也能做……还能同时设定它忽略类似“未见肿瘤”这样的健康信息,所以决定一个llm走到底了。llm真好用吧我说
另外关于模型部署的问题,现在决定改为使用qwen3-8b-vl-fp8模型,同时负责表格提取、表格外文本的关键信息提取、平常交谈,并且常驻显存,这样就可以将模型部署抽离成一个服务了。
不过名词统一,这个要建映射表,感觉太麻烦了,先忽略,搞个mvp再说。
晚上也看了一下c++,发现新c++连定义变量的推荐方式都变量,推荐用统一初始化了。但总的来说,没学多少
明天计划:
- 把llm部署抽离成服务,然后搞入库
- 继续学c++
感觉学太慢了,之后还要看八股,不会来不及吧
3.8
上午做实验去了,没干啥,下午想去重构项目结构,发现真的难,所以那些架构师工资高也不是没有道理的。
我想要重构项目结构,并不是因为代码之间太耦合,我在开发时是有意识地避免太过于耦合,但是这是我第一次做这种中型项目,导致了好几个问题:
- 代码之间太多分离,导致层级太复杂,想修改一下逻辑得改好多地方(也说明我还不懂业务设计、代码的深层联系)
- 有几个目录根本不应该这样划分:
- 比如model目录,将微调逻辑代码放在后端?挺扯的,但是我就放了😓。
- 还有api目录,我其实现在都不知道为什么当时我弄出来这个文件夹,哪怕我的基础llm是http server的,也不需要api吧,我都没有复杂到需要包装成api还到处调用的东西。
- 也就instances和services有点用,前者是之前还没用基础llm接管全部业务的方案时创建的,就为了方便看创建模型的py文件在哪里;后者现在还算有点用,毕竟要走http server接管全部业务的方案
可能还有一些问题我没记下来,反正这些也够头疼了,不知道今天能做完重构不,晚上还得学c++呢。
后面突然发现用8b vl模型可能显存不够用……vl模型随对话次数显存占用增长挺快的,ocr模型又得用11g,但是8b fp8混合精度又加不了lora adapter,可能需要换成4b了。
3.9
今天去看招聘会了,投了四家,下午做了下代码重构,结果还是想法大于行动,没干多少……
晚上继续学,感觉有点多啊,c++没学一半,计网、os没看,八股没刷,项目甚至连半完工都算不上,要陪跑力。
明天计划:
- 明天必须完成代码重构和入库了
- 然后继续学
3.10
今天算是完成代码重构了,搞了一堆ai写的代码,还不如我上官网找示例代码然后让ai扩展,ai还是太喜欢自己瞎发挥了。
晚上继续学,感觉已经来不及看完c++的学习内容了,边看c++八股边学吧,还得学计网和os呢。
顺带一提,卓望给我发笔试链接了,还挺准时,3.12十点半前完成,不过就一个小时,几十道单选,几道多选,难度应该还行?
明天计划:
- 重构是做完了,但是入库还没做,早上搞一下吧
- 下午到晚上就得狠狠学了
3.11
早上搞了下项目,但是入库没做完,在优化prompt……
下午和晚上就一直学,学不完了呀😭。
明天计划:
- 早上考个笔试
- 其它时间全力学
3.12
早上7点起来,小学了一会,就去牛客考了一下卓望的笔试,35道单选,3道主观题。单选挺简单的,主观题就下面几道:
- 写带KV Cache的transformers解码部分,我代码不会写,写了原理
- 问大模型的幻觉现象、原因、解决方法,这个还行,简单编了下
- 问分类模型中,为什么F1 Score比准确率Acc更好,这个几乎不会,因为不知道F1 Score是什么😅
然后一直学到下午,c++还没学完,但是可喜可贺的是,已经学了7 80%😋,但是不幸的是,计网、os没看😭。原本还打算上午学完c++,下午开始学计网啥的,哎。我还得回顾一下之前的项目和让ai帮我搞份微调计划书(用来充充门面),要积极咯。
我现在的状态也许有6 70分,但是字节肯定要8 90分以上的,只能说白嫖一个面试了。
晚上就小小学了会c++,就基本学完了,但是多线程多进程没看,有点慌。之后就一直在看计网。
明天计划:
- 早早起来,继续学会计网,还有os,再让ai帮我分析一下吹水方法
3.13
今天早早起来准备了,然后就是面试,具体过程我写另一批文档里,就结果来说,还行,但是多线程多进程被拷打了,面试官人挺好的,也约到了二面,不过字节不少都是三面才挂,也许是还在泡鱼?
下午和晚上难得玩了会,还熬了会夜,明早直接晚晚起。
明天计划:
- 尽量早点起来,然后复盘面试,继续准备
3.14
今早差不多11点才起来😅下午和晚上又在捣鼓一个tauri软件,待办清单+知识库,结果简历没投,多线程没看,复盘没写完,项目没动,积极。
明天计划:
- 先写完复盘,然后投几份简历
- 下午考一下电信的笔试,其它时间就接着学
3.15
今天也早早起来了,但是简历忘投了,或者说想做出来个不错的数字再投,不过复盘是做完了,明天可以去问一下hr了。
下午一直在赶项目,其实上午大半时间也在赶,后面就去搞电信的笔试,这个笔试难度不大,但是贼麻烦,手机摄像头要一直开着,还有可能卡退,我是真的服了。
晚上稍微学了会线程进程,但是进度可以说为0,因为在测试体检报告提取管线,不停地修bug,只能说有一些bug必须要到生产环境才会暴露,我的电脑不去运行它,这些bug就一直看不到。
明天计划:
- 明天狠狠学,然后找个时间问一下hr,找他要点建议
- 核对测试结果,稍微改进代码,给简历加上好看的数字
3.16
花了一早上加半个下午的时间做完了测试,bug真不少啊,果然还得上实际生产环境才知道。什么图片路径读取错误、表格解析漏行、缺失路由分流啥的,之后再狠狠赶吧,明天面试,还打算问一下hr一些疑问。
之后的时间就一直在学了,其实晚上玩了会感觉学不完了啊,多线程多进程协程……东西好多。
明天计划:
- 上午找个时间问一下hr,记得录音,然后就猛猛准备吧
- 然后5点面试,二面应该不会挂我,挂也是三面吧
3.17
今天面试了,面试官应该是技术主管之类的人物,给人的感觉就是去管人的,他不太满意我没有互联网实习经历,so……,应该是挂了。
晚上就玩去了,又熬夜了。
明天计划:
- 恢复投递,毕竟准备面试花了很多时间
3.18
今天十点半才起,然后下午去看了一场美团的招聘会,基本就没干啥正事,感觉自己还没从字节挂了的状态回复回来。
项目也没动,必须开始写了,还有计算机三级。
明天计划:
- 看看招聘,投投简历,学学三级
- 写项目
3.19
今天也没多早起,而且又花了很多时间看手机……项目也没动😂,不过手机小程序投了好几家,招聘会也投了一家(嵌入式软件岗)。
明天计划:
同上