
pSeek独创的专家特训法。V4没有直接练一个全能战士,而是先练出了数学专家、代码专家、Agent专家、指令跟随专家。这种分阶段的Specialist Training保证了每个领域的上限被拉到最高。最后,再通过OPD(Multi-teacher On-Policy Distillation,多教师在线策略蒸馏),将这些专家的灵魂聚合成一个统一的模型。这里工程上的难度在于,同时加载十多个万亿参数级
当前文章:http://o7m.yueduhe.cn/ank/tgd.html
发布时间:14:10:21