中国人工智能技术发展引发全球关注
作者 丹尼斯·诺米勒
发表于 2025年6月
标题

自中国人工智能大语言模型深度求索(DeepSeek)“横空出世”以来,关于中国人工智能技术的发展引发了国际社会的关注。美国《科学》杂志最近以《中国公司推出更快、更便宜的人工智能语言模型引发轰动》报道了中国人工智能发展情况,现编译该文如下。

对一家中国初创企业而言,美国禁止向中国实体出售最先进的人工智能(AI)芯片反而成为了创新的催化剂。由前AI学者转型对冲基金经理于2023年5月创立的深度求索(DeepSeek)公司表示,他们找到了用二线图形处理器(GPU)以极低成本实现与美国竞争对手相当AI性能的方法。

此前,深度求索已凭借一系列高效的大型语言模型(LLM)引发关注——这些模型虽性能不及OpenAI的ChatGPT,但同样雄心勃勃。与ChatGPT及多数西方竞品不同,深度求索的LLM为开源模型,用户可查看并修改源代码以优化或定制功能。2024年12月27日的技术报告中,该公司宣布其最新模型V3实现重大突破,“性能超越其他开源模型,达到与主流闭源模型相当的水平”。

标题

AI领域观察者对此予以重视。研究新兴技术的乔治·华盛顿大学政治学者杰弗里·丁(音)指出,深度求索“缩小了与世界顶尖LLM的差距”,部分基准测试甚至超越OpenAI的最新模型GPT-4o。OpenAI联合创始人、前研究员安德烈·卡帕西在社交平台发文称,若V3通过后续独立验证,“这将是资源受限条件下科研与工程能力的非凡展示”。

华盛顿特区中美经济竞争分析师王雷(音)表示,中国难以获取先进AI芯片的现状“正迫使中国AI科学家在现有硬件条件下创新”。深度求索称其采用改进版“混合专家”架构,既降低模型训练算力需求,又提升查询响应效率。该架构仅针对特定任务训练模型内的部分专家网络,再由门控网络将查询分配至最适配的专家网络。

悉尼科技大学中国创新研究专家玛丽娜·张(音)评价道:“深度求索证明,巧思能有效缓解先进硬件获取受限的制约。”深度求索公司表示,效率提升显著降低成本——估算显示V3训练仅耗资560万美元,远低于OpenAI训练ChatGPT-4o的预估7800万美元。杰弗里·丁指出,用户运行该模型的成本“远低于同等性能的其他模型”。据称V3的数据分析、模式识别与预测建模能力可应用于气候影响预测、疾病生物标志物识别、宇宙学理论验证等科研领域。

与多数主要竞争对手不同,深度求索未获中国科技巨头注资。王雷强调“深度求索公司核心聚焦创新与中国高性能LLM研发”。

标题

深度求索未回应《科学》杂志的邮件问询。但创始人兼CEO梁文峰去年向新媒体“暗涌Waves”表示,公司优先事项是“研究技术创新”而非商业机会。他透露终极目标是实现人工通用智能(AGI)——这一AI目标要求模型具备人类认知能力,该崇高愿景帮助公司吸引了志存高远的研究者。“顶尖人才最看重的无疑是解决世界级难题的机会。”

梁文峰曾就读浙江大学,2015年参与创立依赖AI策略的对冲基金幻方量化,据传其现管理80亿美元资产。幻方孵化深度求索并专注LLM研发,据悉梁文峰亲力亲为参与多篇公司科研论文撰写。

尽管取得重大进展,观察人士指出深度求索仍面临挑战。杰弗里·丁认为开源模式意味着“竞争对手可改良其方法”。战略与国际研究中心AI政策专家格雷戈里·艾伦断言“若无法持续获取更多AI芯片,未来必将举步维艰”;玛丽娜·张则指出中国企业必须“持续突破软件与系统创新边界以保持竞争力”。

本文刊登于《海外星云》2025年3期
龙源期刊网正版版权
更多文章来自
订阅