DeepSeek新模型因华为昇腾芯片技术问题推迟发布
【纬度新闻网】中国初创企业深度求索(DeepSeek)新一代人工智能模型R2在训练过程中因华为昇腾处理器出现技术问题而延迟发布。尽管华为派出技术团队协助,但问题仍未完全解决,导致公司继续依赖英伟达系统进行模型训练。
据英国《金融时报》援引多名知情人士消息,中国人工智能初创企业深度求索(DeepSeek)原计划于今年5月推出的R2模型,在训练阶段因使用华为昇腾处理器出现持续性技术问题,发布时间被迫推迟。
知情人士透露,华为已派出工程师协助深度求索进行研发,但昇腾芯片在模型训练中仍难以顺利运行。目前,R2模型的训练依然依赖美国芯片制造商英伟达的系统,昇腾芯片仅在模型推理阶段使用。双方正探讨如何进一步提升芯片与模型推理的兼容性。
AI模型的“训练”是通过海量数据优化性能的过程,而“推理”则是模型在完成训练后对实时数据进行分析和推断的环节。业内指出,与英伟达产品相比,国产芯片在稳定性、芯片互联以及软件性能等方面存在一定差距,这为深度求索的研发带来挑战。
报道还称,深度求索创始人梁文锋已在内部会议中对R2项目进展表示不满,并要求将部分资源转向更高阶AI模型的开发,以保持公司在竞争激烈的人工智能领域中的优势。
腾讯科技此前报道称,R2模型有望在8月15日至30日间发布,但接近深度求索的消息人士否认了这一传闻,称具体发布时间仍未确定。
这一事件发生在中美科技竞争加剧的背景下。据媒体报道,中国政府近日约谈多家互联网公司,要求说明采购英伟达芯片的原因。被约谈的腾讯在8月13日晚的业绩交流会上表示,公司拥有足够的芯片库存以满足模型训练和升级需求,并在推理环节具备多种芯片选择,同时将通过软件优化减少对芯片性能的依赖。