英国生物样本库数据遭非法挂牌出售,官方紧急收紧研究访问权限

英国生物样本库(UK Biobank)近日披露一起严重的数据安全违规事件:三家学术机构的研究人员违反合同协议,将获批用于研究的脱敏参与者数据,在阿里巴巴旗下的中国电商平台挂牌出售。

UK Biobank 数据安全事件

UK Biobank 在 4 月 23 日发布的公开信中确认,涉事挂牌信息在中英两国政府的协调下,已被阿里巴巴迅速移除,在发生任何实际交易之前就被制止。涉事机构及个人的访问权限已被吊销。

作为全球规模最大的健康与基因研究数据库之一,UK Biobank 包含约 50 万名英国参与者的脱敏数据,自 2012 年起向全球科研人员开放。这些数据推动了数千项医学发现,涵盖多种疾病的预防与治疗。

这起事件暴露了开放式科研数据共享体系中一个长期存在的结构性矛盾:数据脱敏可以在技术层面消除直接的身份识别风险,但一旦数据脱离受控的研究环境,重新识别的可能性就无法被完全排除。目前没有任何脱敏方案能从理论上证明数据不可逆。

UK Biobank 的应对措施涉及三个层面:

第一,平台级管控升级。已暂停所有研究平台的访问权限,同时部署严格的文件导出大小限制——允许研究者导出研究结果,但大幅压缩脱敏数据离开平台的能力。所有从研究平台导出的文件将接受每日监控,排查异常行为。

第二,制度级调查。由董事会主导的全面调查正在进行,UK Biobank 称这是一次"法医级别的"审查。

第三,技术级防御。正在开发一套自动化检查系统,目标是防止脱敏参与者数据被带离研究平台,同时不影响全球数千名研究者的正常工作。这套系统预计在 2026 年底前上线,UK Biobank 称其为"全球首个"此类系统。

从技术角度看,第三项措施最值得关注。目前大多数科研数据平台的访问控制仍然依赖人工审核和制度约束——研究者签署合同、承诺合规,平台方信任并监管。UK Biobank 此前已经要求研究者在受控的云端平台完成分析,而非将数据下载到本地,这在行业内已经属于较高的安全标准。但这次事件说明,仅靠制度约束和云端托管并不足够,研究者仍然可以通过技术手段将数据导出并转移。

自动化检查系统的核心思路是:在数据离开平台的出口处增加一层智能过滤,识别并拦截脱敏数据的外泄。如果能成功落地,这套方案可能成为其他大规模生物医学数据库的参考范本——包括美国的 All of Us、英国的 Genomics England,以及中国的多个基因组计划。

不过,这类系统也面临一个根本性难题:如何在拦截敏感数据和允许研究结果导出之间划定精确的边界。研究结果本身可能包含统计摘要、关联分析,这些内容与原始脱敏数据之间的界限有时非常模糊。自动化系统的误判率将直接决定它能否被研究社区接受。

UK Biobank 在公开信中强调,所有共享的数据均为脱敏数据,不包含姓名、地址、出生日期、NHS 编号等个人身份信息,目前没有证据表明任何参与者被未经授权地识别。但对于 50 万名参与者而言,知道自己的健康数据(即使是脱敏的)曾出现在电商平台上出售,这种心理冲击本身就足以动摇公众对科研数据共享体系的信任基础。