搜索
房产
装修
汽车
婚嫁
健康
理财
旅游
美食
跳蚤
二手房
租房
招聘
二手车
教育
茶座
我要买房
买东西
装修家居
交友
职场
生活
网购
亲子
情感
龙城车友
找美食
谈婚论嫁
美女
兴趣
八卦
宠物
手机
打印 上一主题 下一主题

DeepSeek发布NSA研究成果,创始人梁文锋亲自参与

[复制链接]
查看: 21|回复: 0

19万

主题

19万

帖子

58万

积分

论坛元老

Rank: 8Rank: 8

积分
587921
跳转到指定楼层
楼主
发表于 2025-8-1 19:56 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
近日,人工智能公司DeepSeek在海外社交平台上发布了一份技术论文报告,聚焦于原生稀疏注意力(NSA)机制的研究。该论文引起了业界的广泛关注,不仅因为其研究内容的创新性,更因为论文的署名中包含了意外的人物。
论文的第一作者袁景阳是在DeepSeek实习期间完成了这项研究,这一成果的取得对他个人以及DeepSeek来说都是一大喜讯。令人感到惊喜的是,DeepSeek的创始人梁文锋也作为著作者之一出现在论文署名中,排名倒数第二,这一举动在业内引起了不小的讨论。
论文摘要指出,DeepSeek团队认识到长上下文建模对于下一代大型语言模型的重要性。然而,现有的标准注意力机制随着序列长度的增加,其高复杂度成为了性能提升的瓶颈。NSA机制的提出,正是为了解决这一问题。
NSA通过高效处理长序列的能力,使模型能够直接处理如整本书籍、代码仓库或长轮对话等大规模数据,极大地扩展了大型语言模型在文档分析、代码生成、复杂推理等领域的应用范围。
此外,NSA针对现代硬件的优化设计不仅提高了推理速度,还降低了预训练的成本,同时保持了模型的性能。在通用基准测试、长文本任务和基于指令的推理中,NSA的表现均能达到或超越全注意力模型。
DeepSeek团队认为,稀疏注意力机制为提高模型效率同时保持能力提供了一条有希望的途径。
根据公开资料,NSA是一种专为长文本训练与推理设计的稀疏注意力机制,它通过动态分层稀疏策略等先进技术,对传统AI模型的训练和推理过程进行了显著优化。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2006-2014 oopz大明星网,男女明星图片,明星八卦新闻,明星个人资料大全 版权所有 法律顾问:高律师 客服电话:0791-88289918
技术支持:迪恩网络科技公司  Powered by Discuz! X3.2
快速回复 返回顶部 返回列表