时隔一年多，我还是坚持deepseek就是垃圾。

williamc2 · 发表于 2026-3-31 17:16:09

好用就好

PA-fan · 发表于 2026-3-31 17:37:05

只用国内的模型的，和用国外模型的，对于ai的感知完全不一样。

宋恩子 · 发表于 2026-3-31 17:43:53

DeepSeek是盘子的精神寄托，现在是天天吹DeepSeek 4，号称d4出来拳打cc脚踢cx

yephyr · 发表于 2026-3-31 17:59:37

关于 DeepSeek（深度求索）是否是“原生”模型，答案是肯定的：DeepSeek 是具备极高自主研发深度的原生模型。

虽然在 AI 领域，所有模型都会参考 Transformer 架构，但 DeepSeek 并不是通过简单的“模型蒸馏”或“套壳”而来的。它在架构创新、训练效率和全栈技术路线上展示了极强的原生研发特征。

以下是支撑其“原生性”的几个核心证据：

1. 独创的架构改良：Multi-head Latent Attention (MLA)
在最新的 DeepSeek-V3 中，研发团队提出了一种名为 MLA 的注意力机制。

技术差异：传统的原生模型（如 Llama 3 或 GPT-4）通常使用 MHA 或 GQA 机制。DeepSeek 为了解决 KV Cache（键值缓存）带来的内存瓶颈，自主设计了这种通过低秩压缩来大幅降低计算开销的架构。

原生证据：如果是蒸馏模型，通常会直接沿用“老师模型”的参数结构，无法对这种底层的数学逻辑进行根本性重构。

2. 领先的混合专家模型 (MoE) 策略
DeepSeek 是全球范围内将 MoE (Mixture of Experts) 架构落地最成功的团队之一。

DeepSeekMoE：相比于常规的 MoE（如 Mixtral），DeepSeek 引入了“共享专家（Shared Experts）”和“细粒度专家（Fine-grained Experts）”的概念。

自研算法：这种架构能够让模型在拥有数千亿参数的同时，推理时只激活一小部分参数，从而在极低成本下实现极高性能。这种深度的架构调整必须从预训练阶段（从零开始）设计。

3. FP8 混合精度训练框架
DeepSeek 在 V3 的研发中，自研了一套基于 FP8（8位浮点数）的训练方案。

在高并行算力集群中，如何保证 FP8 训练不崩盘是一个世界级难题。DeepSeek 详细披露了他们在算法和算子层面的优化手段。

硬核指标：能够在大规模算力集群（如万卡 H800）上跑通全量预训练，这本身就是原生研发能力的最高体现。

4. 针对代码和数学的独立强化学习 (RL)
DeepSeek 最早出圈是因为其 DeepSeek-Coder。

训练路径：它并不是简单地“喂”代码数据，而是通过自主设计的任务（如 Repo-level 补全）和特有的强化学习对齐策略进行训练。

表现：它的代码逻辑风格、解决复杂 C# 或 Python 问题的思路，与 GPT 或 Claude 有明显的代差感和风格差异，侧面证实了其逻辑底座的独立性。

5. 极高的技术透明度 (Open Source & Paper)
DeepSeek 几乎为每一个关键模型都发布了极为详尽的技术报告（Technical Report）。

报告中详细记录了语料清洗比例、分词器（Tokenizer）的设计、预训练的不稳定处理以及超参数设置。

业内共识：在目前的 AI 圈，DeepSeek 被公认为“最卷”的原生技术团队之一，其 MLA 架构甚至反过来被很多后来者学习和模仿。

总结
DeepSeek 不仅是原生的，它更像是一个**“效率偏执狂”**。它通过在原生架构上进行大量的数学和工程创新，实现了用极低的算力成本（相比 OpenAI）达到甚至超越顶级模型的效果。

eny · 发表于 2026-3-31 18:04:31

狗叫什么呢

bobbylong · 发表于 2026-3-31 18:30:43

你还别说,打地基定架构这块opus4.6和gpt5.4都不如降智严重的deepseek3.2,人家小日本剽窃谁家都不用就用deepseek,开源协议一删就说是小日本自己开发的,你不服不行

岳云鹏 · 发表于 2026-3-31 18:53:45

gemini很强大

乐悠悠 · 发表于 2026-3-31 19:20:20

小日子严选（刚刚抄袭deepseek），差哪了

星空之下 · 发表于 2026-3-31 19:26:28

deepseek挺好用啊

		自动登录	找回密码
密码			注册

时隔一年多，我还是坚持deepseek就是垃圾。

浏览过的版块