

在数据要素价值加速释放的背景下,科学数据的开放共享与协作正成为破解科研难题、推动产业升级的核心引擎。4月29日,第八届数字中国建设峰会科学数据合作分论坛在福州数字中国会展中心举行。论坛以“开放科学数据,共筑数字未来”为主题,由复旦大学主办,上海科学智能研究院(下称上智院)承办,华为云计算技术有限公司、中国联通上海分公司、中国电信上海分公司、阿里云计算有限公司共同协办,吸引了各界代表共议科学数据生态建设。
福建省政协副主席刘献祥,复旦大学副校长、中国科学院院士马余刚,先后进行了致辞。复旦大学校长助理、上智院理事长吴力波,复旦大学浩清特聘教授、复旦大学人工智能创新与产业研究院院长、上智院院长漆远,分别发表开幕演讲。上海市数据科学重点实验室主任肖仰华,上海数据研究院有限公司学术副院长朱扬勇,上海财经大学数字经济研究院院长高红冰,上海库帕思科技有限公司董事长山栋明,联通(上海)产业互联网有限公司总经理、研究院院长堵炜炜,中国电信上海公司云技术总监、集团高级专家沈鸣,华为云数据要素业务总经理、首席专家刘万来,英矽智能中国区 IT 负责人沙林,阿里云智能政企业事业部大模型智算产品与研发负责人王浩等产学研代表发表主题演讲。上智院首席战略官、复旦大学兼职教授杨燕青主持论坛。
会上,复旦大学人工智能创新与产业研究院副院长、上智院院长助理程远作为代表发布了三项科学数据基础设施——生命流体数据集、催化化学反应活性数据集及科学数据标注平台。由复旦大学和上智院共建的系列科学数据新基建旨在通过数据开放共享与智能化工具,破解科研效率瓶颈,推动跨学科创新。
三项科学数据基建成果发布
血流动力学研究是生物医学领域的重要组成部分,它帮助科学家深入理解生物体内的运动规律,有助于理解心血管系统的功能和疾病机制。通过分析血液在血管中的流动特性及其与血管内壁的相互作用,研究人员能够识别出血压、血管直径、血液粘度等影响血流的因素,这对高血压、心力衰竭、颅内动脉瘤等心脑血管疾病的预防和治疗至关重要。其中,颅内动脉瘤是一类脑部血管畸变,通常无症状,但是一旦破裂却可能导致严重的蛛网膜下腔出血(SAH)。尽管临床实践通常基于动脉瘤的个体因素和形态特征,但其病理生理和血流动力学机制仍存在争议。
生命流体数据集Aneumo基于466个真实颅内动脉瘤的几何形状开发,通过切除和变形操作生成超10000个合成几何形状(含 466 个无动脉瘤几何和 9534 个变形动脉瘤几何),涵盖流速、压力、壁面切应力等关键参数,为研究动脉瘤的发病机制和临床预测提供了宝贵资源。
该数据集将为颅内动脉瘤破裂风险预测提供多场景模拟支持,还可基于血流动力学原理助力优化血管支架、人工血管等医疗设备的设计流程。这将有助于加深对颅内动脉瘤病理特征和血流动力学机制的理解,并支持相关领域的深入研究,加速心脑血管疾病诊疗方案的临床转化。
催化化学反应活性数据集
聚焦于解决化学研发中的关键挑战
化学文献中反应数据的记录方式存在显著差异,特别是产率计算标准、催化剂命名规则等关键信息往往缺乏统一规范。通过开发专用的化学信息提取算法与人工校验流程,团队实现了对海量非结构化数据的标准化重构,基于该数据集训练的催化反应预训练模型在Buchwald-Hartwig、Suzuki-Miyaura等关键交叉偶联反应上能实现反应活性的精准预测,预测误差低于10%。
该数据集在微观层面完整记录了反应底物、催化剂、溶剂、添加剂等关键组分,在宏观层面系统整合了制药、化工催化及电池研发等领域的近30类反应类型,包括经典的偶联反应、环加成反应以及前沿的碳氢键活化反应等。数据集提供了超过100万条经过严格校验的反应记录,并建立了从实验室小试到工业化放大的标准化数据桥梁。
会上发布的另一项科学数据成果——科学数据标注平台,则旨在通过人工智能与专业标注工具的结合,提升科研数据处理效率,加速科学发现进程。平台打造了端到端智能文献提取方案,实现自动化采集,加工,标注和落库的一站式自动化方案,大幅度提高质量数据集加工效率。
该平台将提供化学分子式标注
文献表格提取
及2D/3D医疗影像标注等
多模态工具
通过AI辅助标注功能
大幅缩短标注周期
降低专业门槛
并构建安全可信可审计的
数据标注环境
平台配备50人以上
专业化标注团队
以低培训门槛
和高效率服务支持科研需求
上述成果基于上智院和复旦大学共建的高质量科学语料平台开发。该平台具备从数据采集、加工到管理和建模的全链路能力,目前已汇聚超10PB高质量科学数据,支持多学科研究效率跃升。
学界业界共话数据开放生态
吴力波在演讲中指出,语料和数据是未来AI发展的战略性资源,但当前数据价值评估体系与开放治理机制仍不完善。她说:“为了科学和社会的利益,当下需要探索能够针对科学数据非实体性、场景特异性、加工难度大、价值易变等特征,构建结合成本特征、公共属性与市场属性的定价机制,同时通过可信、可追溯的智能合约增进科学合作和信息共享。政府、NGO、大型企业和科研机构是全球开放数据的主要来源,亟待各方共同推动多层级数据开放体系,夯实开放科学的数据基石。
吴力波
“大模型是对互联网的压缩,而数据决定了接下来人工智能能力的上限。”漆远在演讲中强调,“领域-模型-工程”的开放合作是科学智能发展的核心驱动力,相对Deepseek等大语言模型,垂直领域科学大模型更多样化,尤其需要工程力和基础设施的支撑。他表示,此次复旦大学和上智院联合发布的科学数据基础建设成果就是对此模式的实践,将以标准化数据和工具助力科研人员专注创新。
漆远
在后续的主题演讲环节,肖仰华聚焦科学数据的价值变现,呼吁通过碎片化信息的关联与融合等方式来激活数据价值;朱扬勇分析了数据跨境的历史和现状,从多个维度探讨了科学数据跨境流通的技术与政策平衡点;高红冰从数据、信息、知识、智慧四个层面出发,提出基于D-I-K-W模型的实施框架来促进科学数据合作与应用;山栋明从产业视角分享AI技术重构科研底层逻辑的实践;堵炜炜提出通信运营商在科学数据生态中的AI新基座方案;沈鸣解析了教育科研新基建对开放科学的助推作用;刘万来展示了云平台如何融合各类流通利用技术,实现数据跨主体、跨边界流通的可信、可控、可证;沙林分享了新药研发中通过AI 自动化实验室主动创造高质量数据等方面的经验;王浩则展望了大模型时代下的科研创新与产业升级,阐释了以“云+AI”推动科技创新的优势。
肖仰华
作为推进数字中国建设的重要载体,自2018年起,数字中国建设峰会每年春天在福建福州召开。本届峰会由国家发展改革委、国家数据局、国家网信办、工业和信息化部、福建省人民政府共同主办,福州市人民政府和相关单位承办,超过800位企业家、超100名院士专家以及社会各界人士齐聚,持续为数字中国战略注入创新动能。
(记者 王至莹)