笔趣阁(biquge321.com)更新快,无弹窗!
理论上限,」许承说,「但能做到百分之七十八到百分之八十,就已经是全球领先水平了。」
陈醒靠在椅子上,没有说话。他在等赵静说出解决方案。
赵静翻到下一页,三块显示墙同时更新。
「解决方案分三个层面,对应三个问题。第一层:负载特徵感知调度。不再把三类负载混在一起跑,而是把平台分区——训练区丶推理区丶科学计算区,每个区根据负载特徵做针对性的调度策略优化。」
「训练区需要高带宽丶低延迟的片间互联,所以我们把训练任务集中部署在同一机柜或相邻机柜的天权晶片上,减少跨机柜通信。推理区需要低延迟的单卡响应,所以我们在推理区部署了小芯的边缘调度器,可以根据请求的实时延迟需求动态分配算力,延迟敏感的请求优先处理,延迟不敏感的请求可以排队。科学计算区需要大内存的单卡容量,所以我们把内存最大的那批天权晶片专门划给科学计算区,同时优化了内存分配算法,减少了内存碎片。」
「第二层:片间拥塞控制调优。章宸的团队正在修改互联协议栈的拥塞控制参数,把拥塞检测的窗口从微秒级调整到纳秒级,同时增加了『训练任务优先』的调度策略——当训练任务和推理任务共享同一片网际网路时,训练任务的数据包优先级更高。这个修改不会影响推理服务的延迟,因为推理服务的数据量小丶对带宽不敏感。」
章宸补充了一句:「参数调优已经跑了两轮仿真,效果符合预期。预计两周内可以上线测试。」
「第三层:负载预测模型升级。」赵静说到这里,语气变得慎重了一些。「小芯团队正在训练一个新的预测模型,不再只依赖历史流量数据,而是融合了外部信号——社交媒体热点丶新闻事件丶应用版本发布计划丶甚至天气和节假日。这个模型的参数量比现有模型大十倍,训练一次需要悟道平台百分之三十的算力跑三天。」
「代价不小。」许承说。
「代价不小,但值得。」赵静调出初步的实验结果,「在离线测试中,新模型的预测准确率达到了百分之八十三,比现有模型提高了十八个百分点。如果上线后能保持这个水平,我们可以把冗余算力的预留比例从百分之三十降低到百分之十五,相当于释放出百分之十五的算力用于更多任务。」
陈醒听到这里,在笔记本上写了两个字:「值得。」
赵静看到了他的动作,但没有停下来,继续往下讲。
「除了这三个核心问题,小芯在分析负载数据时还发现了一个更深层的问题——悟道平台的算力浪费不只是调度策略的问题,还有模型本身的效率问题。很多训练任务使用的模型架构是五年前设计的,计算效率只有现在最优架构的百分之六十。他们浪费算力不是因为平台调度不好,而是因为他们自己的代码写得差。」
「这个问题怎么解决?」许承问。
赵静调出了一份统计:「在悟道平台上跑的训练任务中,有百分之三十七来自未来科技内部团队,百分之六十三来自外部合作夥伴和学术机构。内部团队我们可以要求他们优化代码,外部团队我们没有这个权力。」
「但我们可以给他们工具。」赵静说,「小芯团队正在开发一个『算力效率分析器』,可以自动分析一个训练任务的代码,找出计算效率低下的环节,给出优化建议。这个工具可以开放给所有悟道平台的用户,不是强制,但每个任务跑完后会收到一份效率报告,告诉他们『你的任务比最优方案慢了百分之多少』。」
林薇第一次开口:「这个工具如果做出来,不只是帮用户省算力,也是在帮我们积累模型优化的经验。每一个任务的效率分析结果,都可以反哺给小芯的训练数据,让小芯越来越擅长发现算力浪费的模式。」
赵静点了点头。这正是小芯团队的长期目标——让悟道平台成为一个「越用越聪明」的算力系统。
会议进行到第二部分,许承把讨论从「发现问题」转向「落地执行」。
「负载分区的方案,我已经让天机云团队做了两周的仿真,今天上午刚跑完最后一轮。」许承调出仿真结果。「分区后的理论利用率可以提升到百分之七十九,但代价是某些极端情况下,训练区可能会因为任务太多而排队,推理区可能会因为流量突增而临时缺算力。」
「排队和缺算力的问题怎么解决?」秦峥问。他虽然负责汽车业务,但天行者的自动驾驶模型训练重度依赖悟道平台,训练任务的排队时间直接影响模型叠代速度。
许承调出另一张图:「分区不是物理隔离,而是逻辑隔离。每个区都有『弹性边界』——如果训练区的任务排队超过一定时间,调度器可以从推理区或科学计算区临时借用算力;如果推理区流量突增,调度器可以从训练区借用算力。借用是有优先级的,训练任务可以接受几分钟的延迟,推理任务