第327章 悟道算力平台的负载调优

章节报错(免登陆)
下载APP,无广告、完整阅读

笔趣阁(biquge321.com)更新快,无弹窗!

不能接受,所以借用的方向是单向的——只能从训练区借给推理区,不能反过来。」
    秦峥接受了这个方案。
    章宸提出了一个更技术性的问题:「分区方案上线后,片间拥塞控制调优的工作量会变大。因为不同区的通信模式不同,拥塞控制的参数需要分区配置,不能一刀切。」
    许承表示已经考虑到了这一点:「训练区用训练优化的拥塞控制参数,推理区和科学计算区用默认参数。」
    章宸点了点头。
    赵静提出的负载预测模型升级,是三个方案里风险最高的一个。新模型需要在悟道平台的在线流量上做A/B测试,先在小范围上线,验证效果后再逐步扩大。
    「A/B测试的方案已经设计好了。」赵静说,「第一周,新模型只影响百分之五的推理请求,其他百分之九十五还是用旧模型。如果第一周的数据显示新模型没有引入明显的延迟增加或错误率上升,第二周扩大到百分之二十,第三周百分之五十,第四周全量。」
    「如果中间出问题呢?」周明问。
    「有回退机制。每一周的扩大都是可逆的,一旦发现异常指标,可以在五分钟内切回旧模型。」
    周明没有再问。
    陈醒在笔记本上写了第三个词:「节奏。」
    他知道,悟道算力平台的负载调优不是一场闪电战,而是一场持久战。分区方案丶拥塞控制丶预测模型,三个方向同时推进,每个方向都有自己的风险和不确定性。真正的挑战不是技术本身,而是如何在不影响现有业务的前提下,把这些改动一点一点地注入到一个已经运行了两年丶支撑着二十七个应用丶每天处理数亿次请求的生产系统里。
    会议进行到第三个小时,许承把讨论从「解决方案」转向「资源投入」。
    「分区方案需要改造调度器的核心代码,预计耗时三周,投入六名工程师。拥塞控制调优需要修改协议栈和驱动,预计耗时两周,投入四名工程师。预测模型升级需要训练新模型丶开发A/B测试框架丶改造推理服务的调度逻辑,预计耗时五周,投入八名工程师。三个方向并行,总投入十八名工程师,五周内完成全部开发和测试,六周内上线。」
    「十八名工程师,」苏黛说,「天机云团队现在有足够的人手吗?」
    「不够。」许承没有掩饰,「天机云团队目前在全力支撑天枢生态在南洋的扩张和海上数据计划的第三轮演练,能抽调出来投入负载调优的只有八个人。缺口十个人。」
    苏黛翻开笔记本,快速过了一遍集团的人力资源分布。
    「从晶片验证团队借三个人。天权4号的NPU调度器修改已经进入收尾阶段,下周可以释放出部分人力。从AI平台团队借四个人。小芯的负载分析工作告一段落,赵静可以调配人手。从天枢OS团队借三个人。方程那边的开发者扶持计划2.0已经进入执行阶段,不需要大规模开发人力。」
    赵海不在场,但苏黛已经提前和他沟通好了。
    许承把借调的人名记下来,当场发给了各团队的负责人。
    会议的最后一部分,赵静调出了小芯对悟道平台长期演进的三个判断。
    「第一,负载特徵感知调度只是第一步。未来十二个月,我们需要从『分区调度』进化到『个性化调度』——为每一个训练任务丶每一个推理请求动态生成最优的调度策略,而不是把任务粗暴地塞进几个固定的分区里。」
    「第二,算力效率分析器如果做成了,悟道平台的角色会发生变化。它不再只是一个『算力提供者』,还会成为一个『算力效率的衡量标准和优化工具』。这个工具的价值可能比平台本身更大——因为它可以让整个行业的AI训练成本下降百分之三十以上。」
    「第三,也是最重要的——悟道平台的负载调优经验,可以反向输出给天权晶片的下一代架构设计。我们在调度中遇到的每一个瓶颈,都是天权下一代晶片应该优化的方向。片间拥塞控制调不上去,说明下一代晶片需要更智能的互联协议;负载预测模型跑不动,说明下一代晶片需要更强的内存带宽;分区调度的弹性边界不好使,说明下一代晶片需要更灵活的算力切分粒度。」
    章宸听到这里,终于露出了今天第一个笑容。
    「赵静,你说的这第三条,才是今天这场会议最有价值的一句话。」
    陈醒把笔记本合上。
    「总结一下。」他说,声音不大,但每个字都很清楚。
    「第一,悟道算力平台的负载调优,优先级最高。许承负责整体推进,赵静负责预测模型和效率分析器,章宸负责拥塞控制和晶片侧配合。五周内完成开发和测试,六周内上线。」
    「第二,借调的人力,苏黛今天之内协调到位。许承明天早上拿到完整的人力清单和任务排期。」
    「第三,算力效率分析器做成
章节报错(免登陆)
下载APP,无广告、完整阅读
验证码: 提交关闭