deepseek
DeepSeek是由私募巨头幻方量化成立的新组织“深度求索(DeepSeek)”所开源的第二代MoE模型,旨在探索通用人工智能(AGI)1617。DeepSeek-V2模型在5月6日宣布正式开源,其性能媲美GPT-4,并且在目前大模型主流榜单上表现突出1。该模型支持128K的上下文长度,而Chat/API则支持32K上下文长度2。DeepSeek-V2模型和相关论文均完全开源,免费商用,无需申请许可3。
DeepSeek-V2模型在中文数据集上的表现得到了专家的认可,其中文能力已达到国际先进水平49。此外,DeepSeek AI在5月12日发布了DeepSeek-V2,与Kimi+和OpenAI的产品更新一同,被视为AI产业端推进的发展机遇5。幻方量化发布的DeepSeek-V2在AlignBench、MT等基准测试中表现优异,综合性能位列第一梯队8。
DeepSeek-V2模型采用了专家模型架构,API定价为每百万tokens输入,显示出其在商业应用上的潜力9。DeepSeek产品及服务由北京深度求索人工智能基础技术研究有限公司、杭州深度求索人工智能基础技术研究有限公司及其关联公司共同所有和负责运营1112。
DeepSeek-VL是DeepSeek的一个变体,它在不丢失语言能力的同时融入了多模态能力,能够对现实场景下的问题给出细致而有条理的回复,并且能够接受大尺寸分辨率的输入14。DeepSeek-V2拥有236B的总参数,其中21B参数在每个token上被激活。与DeepSeek 67B相比,DeepSeek-V2在性能上更强,同时节省了42.5%的训练成本,减少了93.3%的KV缓存,并把最大生成吞吐量提高了5.76倍16。
此外,DeepSeek VL作为一个多模态大模型,在2024年视觉与学习青年学者研讨会(VALSE 2024)上进行了报告分享,展示了其面向实际场景体验的能力19。这表明DeepSeek不仅在文本处理方面表现出色,还在多模态数据处理方面具有潜力。
总的来说,DeepSeek是一个开源的、性能强大的通用人工智能模型,它在文本和多模态数据处理方面均展现出了卓越的能力,并且在商业应用上具有很大的潜力。
幻方量化宣布开源DeepSeek-V2模型1 | DeepSeek-V2开源 幻方量化宣布其AGI新组织DeepSeek开源第二代MoE模型。 |
DeepSeek-V2模型支持128K上下文长度2 | 上下文长度支持 DeepSeek-V2模型支持更长的上下文长度,优于Chat/API的32K。 |
DeepSeek-V2模型和论文完全开源3 | 模型论文双开源 DeepSeek-V2模型和相关论文完全开源,免费商用。 |
DeepSeek-V2在中文数据集上表现优异4 | 中文数据集表现 专家表示DeepSeek-V2在中文数据集上表现突出。 |
幻方量化发布DeepSeek-V2,性能位列第一梯队8 | 性能位列第一梯队 DeepSeek-V2综合性能优秀,位于行业第一梯队。 |
DeepSeek-V2模型参数和性能对比16 | 参数性能对比 DeepSeek-V2具有236B参数,性能强于67B版本,节省训练成本。 |
深度求索(DeepSeek)1 | 开源AGI探索组织 幻方量化旗下,致力于探索通用人工智能,开源第二代MoE模型DeepSeek-V2。 |
北京深度求索人工智能基础技术研究有限公司11 | DeepSeek产品服务运营方 负责DeepSeek产品及服务的运营,推动AI技术应用。 |
杭州深度求索人工智能基础技术研究有限公司12 | DeepSeek开放平台运营方 与北京深度求索共同负责DeepSeek开放平台的运营。 |
幻方量化1 | AI领域新势力 探索AGI的组织,开源DeepSeek-V2模型。 |
深度求索(DeepSeek)1 | 开源精神践行者 幻方量化旗下,致力于推动AGI事业。 |
DeepSeek-V2模型6 | AI技术突破 幻方量化开源的第二代MoE模型,性能卓越。 |
Gangtise投研分析师9 | 行业专家观点 对DeepSeek-V2模型中文能力的评价者。 |
北京深度求索人工智能基础技术研究有限公司11 | DeepSeek产品运营方 提供AI产品及服务。 |
杭州深度求索人工智能基础技术研究有限公司12 | DeepSeek平台运营方 负责DeepSeek开放平台运营。 |