联邦学习有望打破企业与高校的科研数据壁垒
上过大学、读过研究生的同学都知道,我们在学校实验室做的很多项目,其实离企业生产、工程实践的真实环境相差很远,所以存在一个很大的“偶然”,我们上了3年的研究生踏出校门进了企业,才发现动手能力和对企业实际业务的能力,远远不如在“一线”奋战过3年的本科生。
这是一个很多做主管都非常能感同身受的“研究生”现象(当然不代表全部)。这其实反应了一个教学问题,高校的教学理论和实践为什么总是会相差那么远?这个问题可能不是我们可以去左右的问题,是教育部、是专家需要去关心的。不过,作为一个也曾经是现象级的研究生,在研究生课题的点上,我想说一说。
都说中国的大学读研究生难,毕业容易;外国的大学读研究生容易,毕业难。道理其实出在做课题上,我想起我们在学校做课题(计算机专业),我们几个同学都选择了大数据存储、机器学习、深度学习、复杂网络等比较时髦的行业课题,方向完全没有问题(未来十年发现这些领域都成就了行业的独角兽)。
我记得我的课题是“机器学习在精准营销领域的研究与应用”,当时的过程是这样的,整个开题到答辩的过程,历史1年,最打动我的是我找到了一个很善解人意的导师张老师,给我找了一个师姐(也是软件工程方向的)。真的是手把手教我调整逻辑回归参数,教我用python,美滋滋,关键是这种研究生活像毒药一样,一下子把大半年时间给消耗掉了......
我先前一直以为,算法啊、模型啊都研究透了,然后会在一个实际的场景里面去试一试,后来要run整个模型的时候,师姐说:别多想,去xxx下载点数据,跑完,把曲线结果写到你的论文里面去。
好吧,原来研究生的课题基本大多数如此——根本没办法去感受真实的企业生产环境,做数据的拿到是没有现实意义的样本,那我们的课题只能生存在温室里面!
我觉得除了北大自己有方正(前两天也差不多倒闭了)、清华自己有紫光,很少有高校拥有自己的企业,更何况企业数据!对于一个互联网企业来说,特别是拥有大数据的企业,在法律合规层面,也不可能将真实数据给到高校,献给一个研究生来做一个课题。这是荒谬绝伦的事情。
“数据壁垒”破题之道
关于高校如何培养更接地气的研究生,因为我们现在有个和学校出国留学的项目,所以,和项目方经常会组织一些“茶花会”,大家会提出一些想法。(如果我们的条件和方案更加能吸引深造的学生,那么是不是深造项目在招生和毕业上会更有优势呢?)和交大的老师们还有上海富数科技的卞总(在他们合作的密码学实验室讨论会上),卞总提出了一个非常有意思的想法——
卞总:当年在交大做课题,也是被数据样本给逼疯了。我觉得企业真实数据开放给高校,建立深度的合作关系,这里面包含两层意思,
第一是高校的科研能力注入到企业生产环境
第二是高校的专业人才输送到企业。这些合作的都是三赢的。企业得到了人才、高校丰富了教学资源、学生更加接近企业。
金老师:这里面啊,关键其实还是怎么样促成企业和高校之间的合作,就拿我们实验室来说,想从企业拿点合作资源和项目,其实比申请国家项目还难。
卞总:其实现在也有好的方式,比如说我们和密码学实验室合作的多方安全计算项目,联邦学习这种方式。我们公司现在的FMPC平台,已经对接了数十家大数据的联盟区块链节点,比如SDK、运营商等,这些数据厂商完全可以与高校进行科研项目,甚至可以举办建模大赛等活动。我们的学生可以在企业级的真实数据环境里做更多的事情。联邦学习这个过程就解决了企业数据不出来,却可以被建模使用的需求。
茶花会上关于这个想法,得到了一致认可,我个人作为一个高校缺数据的“受害研究生”也觉得是一个非常不错的发展方向。目前微众的标准化fate让使用者门槛越来越低,富数科技在这件事情上,又有很好的高校资源,相信在联邦学习完全成熟的时候,我们的高校和企业能做到联动,让企业级生产数据和业务能真正被高校科研接触到。
- END -