全球资讯

DeepSeek团队研究:相信长期主义开源理念可扩展大语言模型

资料图:DeepSeek。图:视觉中国

  【旭才科技】中国人工智能初创企业DeepSeek(深度求索)正给全球科技市场带来震撼。2025年初,DeepSeek发布新一代推理模型R1,该模型在性能上与OpenAI的o1模型相当,训练成本却仅为557.6万美元,仅为Meta训练大模型纯算力成本的1/10。这一突破在全球AI领域和资本市场引发了巨大震动。R1模型的开源、低成本和高性能也成为全球技术界的焦点。

  2024年1月,DeepSeek大语言模型团队曾在预印本平台ArXiv发表论文《以长期主义扩展开源语言模型》,深入研究并探讨了他们对于开源模型规模效应(scaling law)的理解。基于对规模效应的研究和理解,团队实现了DeepSeek Chat模型,此后发布的多个升级版本至R1,都是基于DeepSeek Chat模型逐步升级改造而来。



Related posts

能源内参|山东电力现货市场累计结算电量破万亿;两部委印发船舶报废更新激励细则 建造新能源船可获更多补贴

admin

山东聊城5人感染皮肤炭疽 事发肉牛养殖场

admin

特朗普解雇劳工部高官+安插美联储亲信,美国经济数据可信度遭空前质疑

admin