国产AI大语言模型的崛起：从计算器视角见证

计算器目前能在CodeGPS上稳定运行，支持主题切换，黑色星空主题里星星会闪，界面切换流畅，几轮修补

接下来的事儿就像拆洋葱，一层一层来。最早那版只是个雏形，用的是阿里Qwen3-Coder把框架搭起来：输入框、运算队列、显示层，还有基础样式。那会儿想的很简单，先把能跑的功能做出来，别追求花里胡哨。把最基本的按键、等号、数字展示先撑得稳，作为后续改造的底座。

功能做出来后问题就冒出来了。连续按等号会出错，浮点数运算精度有偏差，负数输入没处理好，这些边界情况大家都遇过。我们把这些问题列清单，交给另一个模型——智谱4.6，让它给出修补思路。它不是直接把代码全改掉，而是给了修补策略：把运算流程拆成更小的模块，统一精度处理逻辑，状态机里加入一个中间态用于主题切换时的平滑过渡。按它提议，我们把运算模块化、写了单元测试去覆盖常见顺序，然后一遍一遍跑，发现又冒出小毛病，就继续改，直到稳定下来。这个阶段教会我的一件事是：模型能提方案，但提议执行后还得人工验收，发现回归再迭代。

国产AI大语言模型的崛起：从计算器视角见证

基础稳了后来，体验层面的活儿开始了。先用的是快手的kat-coder-pro来做实用派的主题设计。它交了几套配色方案，思考到了白天和夜间的可读性，还注意到在小屏幕上输入框不要被键盘遮住。实操中我们又调整了触控延迟：给交互事件加节流，避免多次点触产生重复计算。按钮按下要有物理感的反馈，这点很重大——哪个用户喜爱点击了半天没反应？同时把按钮在小屏上的边距从8px改成12px，避免误触，这样的小改动对手感影响很大。kat-coder-pro的方案偏稳，目标是“好用不出纰漏”，于是这套主题成了默认的实用风。

想做点好看的，就交给更会玩花样的模型：kimi-k2-thinking。这个家伙把星空主题当成了一个小动画工程，不只是换颜色那么简单。它把动画分成几层：背景星云渐变、星星的随机闪烁、前景按钮的高光过渡。听起来高大上，但关键在于性能和能耗的权衡。我们在对话里把性能、帧率、移动端省电这些要求逐条写出来，kimi-k2-thinking给了很细的实现提议——列如把闪烁做成短时触发的CSS关键帧而非持续动画，这样GPU占用不至于一直高烧不退；还有提议把动画周期做成可配置的，从体验角度试了0.2秒和0.6秒两种闪烁感觉，最后选了更平滑、对视觉没那么刺眼的0.6秒。试了两轮，看感觉再改透明度和周期，视觉效果才到了预期。

国产AI大语言模型的崛起：从计算器视角见证

整个开发流程靠的不仅是模型本身，更靠我这套自研的平台CodeGPS。平台的一大功能是把当前代码上下文暴露给模型，让模型基于现场代码给出最小改动的补丁。换句话说，模型不需要重写一大段代码，只给出几行具体改动和修改点说明，人确认后直接apply。更顺手的是CodeGPS带有可视化预览窗口：应用补丁后能马上看到效果，省得来回切分支、手动编译再跑一遍。每次改动我们都在变更日志里记一条：哪个模型改了什么、参数从多少改成多少、为什么这么改。列如动画参数从0.2s改成0.6s、按钮边距从8px改成12px，这种记录在排查回归时特管用。

还有一点是沟通记录都保留了。和模型的每轮对话会被存档，方便后来查决策链。哪次决定是为了省电，哪次是为了兼容低端机，哪次由于交互体验被否定，都能追溯。工程里常态是模型先给提议，工程师评估是否合并。模型速度快、重复性工作交给它省力，但那种需要权衡用户场景、业务策略、极端输入的判断，还是得人来拍板。

国产AI大语言模型的崛起：从计算器视角见证

技术细节上，我们把运算流程拆成了三个小模块：输入解析、运算核心、结果渲染。输入解析把连续按键、负数前缀、浮点点位都做了明确的状态机判断；运算核心用了统一的精度处理模块，所有浮点都先转成整数域再运算、最后再转回，减少了常见的精度误差；结果渲染那块增加了状态回滚机制，万一运算出错能回到上一步显示，避免用户误以为算错。为防止因多次点击导致重复运算，我们在交互层加入了节流，还加了视觉反馈，按钮按下能立刻有阴影和缩放效果，让用户知道操作被接收了。

测试环节也没偷懒。我们写了覆盖常见运算序列的单元测试，像连续按等号的路径、浮点连加、负数乘除这些边界都写了用例。并不夸张地说，许多问题都是在写完测试后才暴露出来的——有的bug在手工试时不容易复现，但跑一遍测试脚本就能稳定重现，那才能对症下药。

国产AI大语言模型的崛起：从计算器视角见证

每一轮改动上线前，都在CodeGPS里做预览和回归测试。改动会打成补丁，先在预览里试，确认没引入新问题才合并。工作流程里还带着一点省心的东西：变更日志+对话记录+测试用例，这三样东西在后面排查问题时省了不少力气。用模型帮忙做重复性修改，是为了把人的精力放在判断和体验设计上；而不是把全部过程交给模型就不管。

说到最后那一刻，有点像做成了一个小剧情。把手机解锁，点开CodeGPS预览，点开计算器，三套主题能随意切换。黑色星空里星会闪，实用主题按下有反馈，浅色主题在日间更舒服。动画、交互、边界处理都在预期范围内工作，那一阵子把设备放下，像是把一个还在工地的活儿交到了可用的产品状态。

国产AI大语言模型的崛起：从计算器视角见证