|
|
发表于 2025-7-6 19:50:22
|
显示全部楼层
豆包对完整内容的总结:
一、团队背景与个人身份
所属团队:华为诺亚方舟实验室盘古大模型团队,隶属于 “四野” 组织,其中基础语言大模型为四纵,王云鹤的小模型实验室为十六纵。
核心人物:现诺亚主任王云鹤,前主任姚骏,实验室主任唐睿明(已离职)、尚利峰等,团队近年有大量骨干离职。
工作经历:曾参与苏州集结攻关,长期驻场宾馆,周六加班,工作强度大,团队从研究型转向交付型,例会、评审繁多,对接多业务线压力大。
二、盘古模型研发历程与问题
1. 早期研发与技术困境
算力与架构:早期使用昇腾 910A 训练,仅支持 FP16,稳定性差;23 年开始训练 38B MoE 和 71B Dense 模型,后扩增为 135B Dense 模型(基于 910B)。
Tokenizer 硬伤:71B 和 135B 模型使用的 Tokenizer 编码效率极低(单个字符占一个 Token),更换小模型实验室词表后,71B 更换失败,135B 续训 1T 数据后成功但效果未提升。
竞品差距:同期阿里、智谱等用 GPU 训练,盘古技术落后,230B 模型训练失败,团队士气低迷。
2. 套壳造假事件(135B V2 模型)
操作手段:王云鹤团队声称基于旧 135B 参数改造,实际套用 Qwen 1.5 110B 模型续训,加层、扩 FFN 维度、添加盘古 PI 机制,凑出 135B 参数(旧模型 107 层,新模型 82 层,参数分布与 Qwen 相似,代码类名未改)。
内部反应:团队成员知情,称其 “千古模型”,欲向 BCG 举报被领导拦下(高层默许),核心成员心灰意冷离职。
3. 第三代模型(135B V3)的突破与代价
自研成果:四纵团队从头训练 38B V3(后扩增为 135B V3,代号 Pangu Ultra),基于 Llama 词表扩展,是首个全栈自研千亿模型,效果与 24 年竞品可比,训练全程无 Loss Spike。
艰辛付出:团队克服算力、技术难题,牺牲家庭与健康,数据和代码被小模型实验室 “拿走”,戏称其为 “点鼠标实验室”,大量战友因不公离职。
4. 后续套壳行为(MoE 模型与 Deepseek 事件)
Pangu Pro MoE 72B:自称从 7B 扩增,实际套壳 Qwen 2.5 14B 续训,为洗参数用脏数据,内部评测 “快速追上” 38B V3。
718B MoE 模型:模仿 Deepseek,小模型实验室套壳 Deepseek V3 续训(目录未改),而四纵团队从头训练的模型因流程限制被压制。
三、内部管理与矛盾
流程与特权:华为流程繁琐拖累研发,但小模型实验室不受约束,套壳行为随意,算力资源倾斜,形成 “只许州官放火” 的局面。
人才流失:因造假、不公待遇,大量核心人才流向字节、Deepseek 等团队,离职者称 “在华为是技术生涯耻辱”。
四、个人立场与诉求
揭露动机:因 HonestAGI 质疑事件,不满内部掩盖事实,曝光盘古套壳造假、管理混乱等问题,以生命和荣誉保证内容真实性。
离职与反思:申请从技术报告作者名单移除,认为署名是 “污点”,呼吁华为重视人才、停止内耗,真正做好自研模型与算力。
安全担忧:担心遭公司追责或人身威胁,称若 “消失” 为真理与理想牺牲。
五、核心控诉点
王云鹤及小模型实验室多次套壳竞品模型(Qwen、Deepseek 等),伪造自研成果。
华为高层默许造假,流程管理双标,导致劣币驱逐良币,人才流失严重。
四纵团队真实自研成果被窃取,长期承受高强度工作与不公待遇。 |
|