|
|
发表于 2025-2-18 20:02:49
|
显示全部楼层
他說的其實有道理,目前訓練數據集,數據集收集完整過程,模型訓練代碼,訓練參數都沒有公開,只給模型權重和推理代碼,其實跟開源一半差不多,不然怎麼那麼多人在嘗試寫訓練代碼。像你說的論文給了,訓練方法也給,很多閉源模型也有,在沒有訓練代碼情況,要完整復現難度,其實跟deepseek一樣,舉個例子,你看到食品上有標示配料表和營養成分,你就能做出一樣味道?
目前最多人關注復現就是Open-R1,最後能不能訓練出來不知道。deepseek宣稱低成本,其實說的是訓練一次過程的花費,要訓練幾次才能達到那水平未知,數據集收集的花費未知。不管在機器學習還是深度學習,數據集乾淨程度,其實很大程度影響模型性能,所以才有Garbage In, Garbage Out說法,這也是最多人想知道,到底是數據集乾淨造成影響,還是模型本身牛逼。
像deepseek會吐出chatgpt結果,所以有不少人懷疑是使用openai輸出進行學習,這就是目前最大爭議。我個人認為其實用了也沒關係,在論文說明就好,有些開源項目,其實也有註明。
就像我上面說的,很多人質疑模型本身其實不怎麼厲害,是靠學習別人輸出才有高指標。如果真是學習對方輸出造成優勢,在多數情況是很難超過對方模型,這也是蒸餾模型最常見缺陷。
不過我是滿看好deepseek,至少有開源模型權重,讓很多企業能直接用,至少對他們來說,根本不在乎訓練過程。 |
|