杭州钱江世纪城打造AI数据与评测高地

柳文 2026-05-21 19:04:10

5月18日,在杭州钱江世纪城投资促进大会上,数搭国际数据开源社区正式发布。它由整数智能信息技术(杭州)有限责任公司牵头建设,致力于解决当前人工智能发展中高质量数据从哪来、怎么评的问题,将在“数据+评测+专家生态”关键环节填补全球开源生态空白的基础设施。

专家表示,“数搭”二字,既有“数据搭建”之意,也暗含“为AI发展搭建数据基础设施”的使命。数搭社区公布了清晰的两年目标:数据集累计下载量超2亿次,专家规模超过100万人,发布200个以上评测榜单,覆盖100个以上国家和地区,入驻200家以上AI企业,带动AI数据产业规模超过100亿元。

数搭社区负责人孟卓飞介绍,在整个AI模型的生产周期中,超过80%的时间花在数据准备和处理上。“模型的训练范式已经相对收敛,真正决定模型能力上限和不同厂家核心差异化的点,是数据的质量和品位。”在他看来,训练一个聪明的大模型,大部分功夫不在写代码,而在“备课”——收集、清洗、标注、评测数据。如果数据质量差,再强的算力也只能训练出“糊涂”的模型。

大模型不仅要知识广,更要在具体场景里解决问题。这对数据提出了全新要求,不光要告诉AI“这是什么”,还要让它理解“这是什么关系”“处于什么状态”“将如何演变”。这种高端数据标注,恰恰是大语言模型、具身智能、智慧医疗等前沿领域所急需。

围绕这一行业需求,数搭社区明确了三大核心使命:构建高质量开源数据集、打造覆盖全部主流模型的核心评测基准、连接全球专家网络。

在数据集方面,社区将联合高校和科研机构,把分散在各处的优质数据集中起来,形成开放的数据集,供开发者免费或低成本使用;在评测基准方面,社区将设计各种评测任务,检验模型在代码编写、逻辑推理、金融交易等不同场景下的真实能力,致力于成为全球大模型能力评估的“标尺”;在专家网络方面,社区将通过线上挑战赛、线下工作坊等形式,把跨学科、跨领域的专家聚集起来。

在开源领域,整数智能的积累为数搭社区提供了坚实的运营基础。团队运营开源生态两年,累计发布50余个高质量评测基准,数据集下载量突破1亿次,多家头部模型厂商在重大版本发布时,引用的评测榜单中超过20%来自其开源项目。

建设数搭国际数据开源社区,离不开杭州钱江世纪城的产业生态。作为杭州人工智能产业重要集聚区,这里集聚多个国家级科研平台,汇聚近200家国家高新技术企业。同时,杭州拥有深厚的开源基础,既有知名开源模型,也有相关工具链平台,在全球开发者群体中拥有较高认可度。在杭州钱江世纪城,35岁以下青年人才占比达70%,近三年年均净流入青年人口超1.9万人,新增常住人口中本科及以上学历占比超八成,硕士及以上占比近三成。

孟卓飞表示,未来数搭社区将致力于打通“产业—模型—数据”生态链,串联产业需求、模型训练和数据构建,助力数字经济与制造业数字化转型。依托钱江世纪城,打造全球人工智能开源生态重要节点,实现从“技术跟随”到“生态引领”的跨越,构建自主可控、开放共赢的AI数据基础设施。