一、说明
DeepSeek(杭州深度求索人工智能基础技术研究有限公司)是一家专注于大语言模型(LLM)研发的中国创新型科技公司,成立于2023年7月17日,由幻方量化孵化。其核心产品包括开源推理模型DeepSeek-R1、多模态模型DeepSeek-VL等,以高性能、低成本和开源免费为特色,广泛应用于医疗、编程、应急管理等领域。
模型架构
- 采用混合专家模型(MoE)和多头潜在注意力(MLA)技术,动态分配计算资源,显著降低算力需求,同时保持高性能(如DeepSeek-V2性能对标GPT-4 Turbo,成本仅1%)。
- 支持多任务处理,包括代码生成、数学推