设为首页
收藏本站
切换到宽版
用户名
Email
自动登录
找回密码
密码
登录
注册
快捷导航
论坛
BBS
排行榜
Ranklist
搜索
搜索
热搜:
香港vps
香港VPS
amh
机柜
vps
分销
VPS
域名出售
火车头
云主机
不限流量
香港服务器
美国服务器
香港
全能空间
whmcs
digitalocean
本版
帖子
用户
MJJ论坛
»
论坛
›
主机综合交流
›
美国VPS综合讨论
›
时隔一年多,我还是坚持deepseek就是垃圾。 ...
1
2
3
/ 3 页
下一页
返回列表
楼主:
GΘD
时隔一年多,我还是坚持deepseek就是垃圾。
[复制链接]
rqp
rqp
当前离线
积分
10762
发表于 2026-3-31 17:11:50
|
显示全部楼层
回复
举报
williamc2
williamc2
当前离线
积分
17771
发表于 2026-3-31 17:16:09
|
显示全部楼层
好用就好
回复
举报
PA-fan
PA-fan
当前离线
积分
9971
发表于 2026-3-31 17:37:05
|
显示全部楼层
只用国内的模型的,和用国外模型的,对于ai的感知完全不一样。
回复
支持
反对
举报
宋恩子
宋恩子
当前离线
积分
759
发表于 2026-3-31 17:43:53
|
显示全部楼层
DeepSeek是盘子的精神寄托,现在是天天吹DeepSeek 4,号称d4出来拳打cc脚踢cx
回复
支持
1
反对
0
举报
yephyr
yephyr
当前离线
积分
7066
发表于 2026-3-31 17:59:37
|
显示全部楼层
关于 DeepSeek(深度求索)是否是“原生”模型,答案是肯定的:DeepSeek 是具备极高自主研发深度的原生模型。
虽然在 AI 领域,所有模型都会参考 Transformer 架构,但 DeepSeek 并不是通过简单的“模型蒸馏”或“套壳”而来的。它在架构创新、训练效率和全栈技术路线上展示了极强的原生研发特征。
以下是支撑其“原生性”的几个核心证据:
1. 独创的架构改良:Multi-head Latent Attention (MLA)
在最新的 DeepSeek-V3 中,研发团队提出了一种名为 MLA 的注意力机制。
技术差异: 传统的原生模型(如 Llama 3 或 GPT-4)通常使用 MHA 或 GQA 机制。DeepSeek 为了解决 KV Cache(键值缓存)带来的内存瓶颈,自主设计了这种通过低秩压缩来大幅降低计算开销的架构。
原生证据: 如果是蒸馏模型,通常会直接沿用“老师模型”的参数结构,无法对这种底层的数学逻辑进行根本性重构。
2. 领先的混合专家模型 (MoE) 策略
DeepSeek 是全球范围内将 MoE (Mixture of Experts) 架构落地最成功的团队之一。
DeepSeekMoE: 相比于常规的 MoE(如 Mixtral),DeepSeek 引入了“共享专家(Shared Experts)”和“细粒度专家(Fine-grained Experts)”的概念。
自研算法: 这种架构能够让模型在拥有数千亿参数的同时,推理时只激活一小部分参数,从而在极低成本下实现极高性能。这种深度的架构调整必须从预训练阶段(从零开始)设计。
3. FP8 混合精度训练框架
DeepSeek 在 V3 的研发中,自研了一套基于 FP8(8位浮点数) 的训练方案。
在高并行算力集群中,如何保证 FP8 训练不崩盘是一个世界级难题。DeepSeek 详细披露了他们在算法和算子层面的优化手段。
硬核指标: 能够在大规模算力集群(如万卡 H800)上跑通全量预训练,这本身就是原生研发能力的最高体现。
4. 针对代码和数学的独立强化学习 (RL)
DeepSeek 最早出圈是因为其 DeepSeek-Coder。
训练路径: 它并不是简单地“喂”代码数据,而是通过自主设计的任务(如 Repo-level 补全)和特有的强化学习对齐策略进行训练。
表现: 它的代码逻辑风格、解决复杂 C# 或 Python 问题的思路,与 GPT 或 Claude 有明显的代差感和风格差异,侧面证实了其逻辑底座的独立性。
5. 极高的技术透明度 (Open Source & Paper)
DeepSeek 几乎为每一个关键模型都发布了极为详尽的技术报告(Technical Report)。
报告中详细记录了语料清洗比例、分词器(Tokenizer)的设计、预训练的不稳定处理以及超参数设置。
业内共识: 在目前的 AI 圈,DeepSeek 被公认为“最卷”的原生技术团队之一,其 MLA 架构甚至反过来被很多后来者学习和模仿。
总结
DeepSeek 不仅是原生的,它更像是一个**“效率偏执狂”**。它通过在原生架构上进行大量的数学和工程创新,实现了用极低的算力成本(相比 OpenAI)达到甚至超越顶级模型的效果。
回复
支持
反对
举报
eny
eny
当前离线
积分
4717
发表于 2026-3-31 18:04:31
|
显示全部楼层
狗叫什么呢
回复
支持
反对
举报
bobbylong
bobbylong
当前离线
积分
6682
发表于 2026-3-31 18:30:43
|
显示全部楼层
你还别说,打地基定架构这块opus4.6和gpt5.4都不如降智严重的deepseek3.2,人家小日本剽窃谁家都不用就用deepseek,开源协议一删就说是小日本自己开发的,你不服不行
回复
支持
反对
举报
岳云鹏
岳云鹏
当前离线
积分
4592
发表于 2026-3-31 18:53:45
|
显示全部楼层
gemini很强大
回复
支持
反对
举报
乐悠悠
乐悠悠
当前离线
积分
3196
发表于 2026-3-31 19:20:20
|
显示全部楼层
小日子严选(刚刚抄袭deepseek),差哪了
回复
支持
1
反对
0
举报
星空之下
星空之下
当前离线
积分
1806
发表于 2026-3-31 19:26:28
|
显示全部楼层
deepseek挺好用啊
回复
支持
反对
举报
还有一些帖子被系统自动隐藏,点此展开
下一页 »
1
2
3
/ 3 页
下一页
返回列表
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
注册
本版积分规则
发表回复
回帖后跳转到最后一页
浏览过的版块
IP/主机提供商甄别处
干货茶馆
投诉与意见
Offers专区
Archiver
|
手机版
|
小黑屋
|
MJJ论坛
Copyright
MJJ论坛
© 2022 All Rights Reserved.
快速回复
返回顶部
返回列表