成功案例
CASE
咨询电话
400-123-4567
手 机:13988999988
电 话:400-123-4567
传 真:+86-123-4567
邮 箱:[email protected]
地 址:广东省广州市天河区88号
电 话:400-123-4567
传 真:+86-123-4567
邮 箱:[email protected]
地 址:广东省广州市天河区88号

微信扫一扫
英伟达宣布 6.3 万亿 Token 大型 AI 练习数据库 Ne
IT之家 1 月 13 日新闻,据英伟达官方博客,英伟达发布推出一款名为 Nemotron-CC 的年夜型英文 AI 练习数据库,总计包括 6.3 万亿个 Token,此中 1.9 万亿为分解数据。英伟达宣称该练习数据库能够辅助为学术界跟企业界进一步推进年夜言语模子的练习进程。现在,业界各种 AI 模子的详细机能重要取决于响应模子的练习数据。但是现有公然数据库在范围跟品质上每每存在范围性,英伟达称 Nemotron-CC 的呈现恰是为懂得决这一瓶颈,该练习数据库 6.3 万亿 Token 的范围内含大批经由验证的高品质数据,号称是“练习年夜型言语模子的幻想素材”。数据起源方面,Nemotron-CC 基于 Common Crawl 网站数据构建,并在经由严厉的数据处置流程后,提取而成高品质子集 Nemotron-CC-HQ。在机能方面,英伟达称与现在业界当先的公然英文练习数据库 DCLM(Deep Common Crawl Language Model)比拟,应用 Nemotron-CC-HQ 练习的模子在 MMLU(Massive Multitask Language Understanding)基准测试中的分数进步了 5.6 分。进一步测试表现,应用 Nemotron-CC 练习的 80 亿参数模子在 MMLU 基准测试平分数晋升 5 分,在 ARC-Challenge 基准测试中晋升 3.1 分,并在 10 项差别义务的均匀表示中进步 0.5 分,超出了基于 Llama 3 练习数据集开辟的 Llama 3.1 8B 模子。英伟达官方表现,Nemotron-CC 的开辟进程中应用了模子分类器、分解数据重述(Rephrasing)等技巧,最年夜限制地保障了数据的高品质跟多样性。同时他们还针对特定高品质数据下降了传统的启示式过滤器处置权重,从而进一步进步了数据库高品质 Token 的数目,并防止对模子准确度形成侵害。IT之家留神到,英伟达已将 Nemotron-CC 练习数据库已在 Common Crawl 网站上公然,英伟达称相干文档文件将在稍晚时间于该公司的 GitHub 页中颁布。
相关产品