震撼来袭!全新DeepSeek-V3-0324版本悄然上线,支持免费商用,普通消费级电脑也能轻松运行!

 DeepSeek 悄然发布了其最新的大型语言模型 DeepSeek-V3-0324,在人工智能行业内引发了强烈反响。这款 容量高达641GB 的模型悄然出现在 AI 模型库 Hugging Face 上,几乎没有任何事先宣传,延续了该公司低调但极具影响力的发布风格。

性能飞跃,媲美 Claude Sonnet3.5

DeepSeek-V3的发布之所以引人注目,不仅在于其强大的功能,更在于其部署方式和许可协议。早期测试者报告称,新模型在各项指标上都取得了巨大的进步。

AI 研究员 Xeophon 在 X 平台上表示,DeepSeek V3在其内部测试中“所有测试的所有指标都有了巨大飞跃”,并声称其现在是“最好的非推理模型,取代了 Sonnet3.5”。如果这一说法得到更广泛的验证,DeepSeek 的新模型将超越 Anthropic 备受尊敬的商业 AI 系统 Claude Sonnet3.5。

QQ_1742863943914.png

开源商用,惠及大众:打破付费壁垒

与需要订阅才能使用的 Sonnet 不同,DeepSeek-V3-0324的模型权重是完全免费的,任何人都可以下载和使用

更重要的是,该模型采用了 MIT 许可证,这意味着它可以 自由地用于商业用途。这种开放的姿态与西方 AI 公司通常将模型置于付费墙之后的做法形成了鲜明对比。

MoE 架构与两大突破

DeepSeek V3-0324的突破性架构实现了无与伦比的效率。该模型采用了 混合专家 (MoE) 架构,从根本上改变了大型语言模型的运行方式。与传统模型在每个任务中都激活所有参数不同,DeepSeek 的方法 在特定任务中仅激活其6850亿参数中的约370亿个。这种选择性激活代表了模型效率的巨大转变,使其在大幅降低计算需求的同时,实现了与更大的完全激活模型相当的性能。

QQ_1742863928895.png

此外,该模型还融入了两项额外的突破性技术:多头潜在注意力 (MLA)多令牌预测 (MTP)。MLA 增强了模型在长文本中保持上下文的能力,而 MTP 则可以 每步生成多个令牌,而不是通常的一次生成一个。这些创新共同 将输出速度提高了近80%

硬件友好,本地运行:消费级设备也能驾驭

开发者工具创建者 Simon Willison 在一篇博客文章中指出,一个 4位量化版本将存储占用减少到352GB,这使得在高端消费级硬件(如配备 M3Ultra 芯片的 Mac Studio)上运行成为可能。

AI 研究员 Awni Hannun 在社交媒体上写道:“新的 DeepSeek-V3-0324在配备 mlx-lm 的512GB M3Ultra 上以 >20个 tokens/秒的速度运行!”。尽管9499美元的 Mac Studio 可能超出了“消费级硬件”的定义,但 在本地运行如此庞大的模型 与通常需要数据中心级 AI 基础设施的最新 AI 形成了鲜明对比。

Mac Studio 在推理过程中的功耗不到200瓦,而传统的 AI 基础设施通常依赖于消耗数千瓦功率的多个 Nvidia GPU。

风格转变,更重技术

早期用户报告称,新模型的沟通风格发生了明显的变化。之前的 DeepSeek 模型因其对话式的、类似人类的语调而受到赞扬,而 “V3-0324” 则呈现出 更正式、更注重技术的风格

一些用户在 Reddit 上表达了这种变化,认为新版本听起来“不那么像人类”,失去了以前版本“像人类一样的语调”。这种转变可能反映了 DeepSeek 工程师的有意识设计选择,旨在将模型重新定位为更专业的和技术性的应用。

DeepSeek 的发布策略体现了中国和西方公司在 AI 商业理念上的根本差异。美国领导者如 OpenAI 和 Anthropic 将其模型置于付费墙之后,而中国 AI 公司则越来越倾向于采用宽松的开源许可。

这种开放性正在迅速改变中国的 AI 生态系统,使得初创公司、研究人员和开发者能够在先进的 AI 技术基础上进行创新,而无需大量的资本支出。包括百度、阿里巴巴和腾讯在内的中国科技巨头也纷纷推出或计划推出开源 AI 模型。在获取尖端 Nvidia 芯片受限的情况下,中国公司更加重视效率和优化,这反而成为了一种潜在的竞争优势。

DeepSeek-V3-0324的发布也被认为是其下一代推理模型 DeepSeek-R2的基础。

考虑到 Nvidia 首席执行官黄仁勋最近指出 DeepSeek 的 R1模型“比非推理 AI 消耗多100倍的计算量”,DeepSeek 在资源受限的情况下实现如此性能令人瞩目。

如果 DeepSeek-R2遵循 R1的发展轨迹,它可能会对 OpenAI 传闻即将发布的 GPT-5构成直接挑战。DeepSeek 这种开放、资源高效的战略与 OpenAI 封闭、资金雄厚的战略代表了人工智能未来的两种竞争愿景.

目前,用户可以通过 Hugging Face 下载完整的模型权重,也可以通过 OpenRouter 等平台体验 DeepSeek-V3-0324的 API 接口。DeepSeek 自己的聊天界面也可能已更新至新版本。DeepSeek 的开放战略正在重新定义全球 AI 格局,预示着一个更开放、更普及的 AI 创新时代的到来。

项目:https://top.aibase.com/tool/deepseek-v3-0324

猜你喜欢

麦子的秘密2网络观看:影片背后隐藏着多少令人费解的谜团和未解的故事
麦子的秘密2网络观看:影片背后隐藏着多少令人费解的谜团和未解的故事

》。内容分四段,每段围绕不同点展开,自然插入关键词,保持流畅,避免敏感内容。《麦子的秘密2》在线观看:这部影片为何让观众

高建书法新作品欣赏:在金石气韵中探索古典浑厚之美的独特魅力
高建书法新作品欣赏:在金石气韵中探索古典浑厚之美的独特魅力

在书坛艺苑中,一位以古朴浑重风格著称的书法家高建,以其深厚的艺术造诣和不懈的探索精神,赢得了广泛的赞誉。高建,字天行,师

如果你想要提升修真门派的贡献值,该如何有效提升个人的贡献和参与度
如果你想要提升修真门派的贡献值,该如何有效提升个人的贡献和参与度

在想不想修真这款游戏中,门派贡献度是一个非常重要的资源。它不仅仅能够让你在门派中兑换各种实用的道具和装备,还能够在一定程

水墨中国,通过英摄影师的独特视角展现出别样的风采与魅力!
水墨中国,通过英摄影师的独特视角展现出别样的风采与魅力!

水墨画,这一蕴含千年智慧的中国传统艺术形式,始终以其独特的魅力吸引着无数人的目光。在笔墨纸砚的交织间,艺术家们精心勾勒,

一晚上射精7次第二天能恢复吗
一晚上射精7次第二天能恢复吗

一晚上**7次,第二天能恢复吗?对于很多男性来说,性生活频率和强度的变化可能会让他们产生疑问,尤其是当出现频繁**的情况

究竟复苏卢兹在永夜降临中是否值得玩家们重点培养和投入资源呢
究竟复苏卢兹在永夜降临中是否值得玩家们重点培养和投入资源呢

在奇幻文学的浩瀚海洋中,"永夜降临复苏卢兹"以其独特的世界观和扣人心弦的情节脱颖而出。这不仅是一部小说,更是一场关于勇气

湖北自然资源精彩故事闪耀,16部作品获奖展现生态文明辉煌成就
湖北自然资源精彩故事闪耀,16部作品获奖展现生态文明辉煌成就

在近期揭晓的2024年“讲好中国故事”创意传播国际大赛自然资源主题赛中,湖北省自然资源厅荣获特别贡献奖,成为备受瞩目的焦

如何获取票房大卖王中的钻石金币以及相关技巧和策略
如何获取票房大卖王中的钻石金币以及相关技巧和策略

票房大卖王是一款深受玩家喜爱的模拟经营类游戏,在游戏中,玩家需要建立自己的拍摄团队,制作电影,提升艺人能力,以获得更高的

肖潇钢琴教学音乐会盛况空前,众多音乐才子才女同台献艺展示卓越风采
肖潇钢琴教学音乐会盛况空前,众多音乐才子才女同台献艺展示卓越风采

在北京赫德学校(金盏校区)的音乐厅内,一场别开生面的钢琴教学音乐会于近日圆满落幕。这场音乐会不仅是音乐爱好者们的盛宴,更

揭晓B站夫妻达成高峰期的真实时间:究竟是什么因素促使他们成为“B站最强CP”的秘密!震撼内幕全曝光!
揭晓B站夫妻达成高峰期的真实时间:究竟是什么因素促使他们成为“B站最强CP”的秘密!震撼内幕全曝光!

B站夫妻进入高峰期需要多久?这个问题在B站的互动和评论区频频被提及,大家都想知道究竟是什么因素让这些“夫妻档”能够迅速跻