读数据科学伦理:概念、技术和警世故事05后门、偏差与偏见

2025-05-14  本文已影响0人  躺柒
读数据科学伦理:概念、技术和警世故事05后门、偏差与偏见.png

1. 后门

1.1. 政府经常主张在加密标准中设置“后门”,这样他们就能够在适当的时候(比如在获得法院命令之后)检索个人数据

1.2. “五眼情报联盟”(Five Eyes intelligence alliance)

1.3. 网景公司(Netscape)开发了两种版本的网络浏览器:一种是加密密钥为128位的美国版本,而另一种则是加密密钥为40位的国际版本

1.4. 隐私不是绝对的

1.5. 隐私和安全

1.6. 安全和安全

1.7. 一旦这些政府设置的“后门”被发现(当苹果公司开发出可删除安全功能的软件时,就会出现这种情况),犯罪分子和恐怖分子很可能会转向其他通信方式

2. 现状

2.1. 对于非数值的个人数据(比如,你在家里收到的信件、可能保留的银行打印记录或打印发票)似乎有一个共识,即执法机构有权访问该等数据,甚至可以在适当的法院命令下没收它们

2.2. 在后斯诺登时代,一家手机公司要想在全球市场上生存下去,就必须让消费者相信他们的数据是安全的

2.3. 加密技术不能保障数据保护的安全性

2.4. 加密也无助于防止备份或下载你可能保存的未加密聊天记录

3. 偏差/偏见

3.1. 偏见是另一个重要的伦理概念,抽样偏差可能导致许多错误的结论,或使敏感群体受到不公平待遇

3.2. 数据科学家所研究的数据,很少能完美地代表模型所应用的总体

3.3. 样本可能有很多来自容易访问的组的数据,或者由于环境或总体的变化而不再具有代表性的历史数据

3.4. 数据样本的偏差:样本不具有总体代表性

3.5. 数据或模型对敏感群体的偏见:这与公平性问题一一对应

3.6. 偏差、方差权衡

3.7. 线性模型中的偏差:截距通常也称为偏差项,这是因为如果输入端没有数据(即全部为零)的话,其结果就是偏差项

3.8. 在数据科学伦理中,“偏见”的语境通常是样本偏差或对敏感群体的偏见

3.9. 过度采样也可能是一个问题

3.10. 即使表达不足或过度表达完全是无意的,由此产生的不同影响也值得我们关注这个问题

3.11. 由于对某些种族或性别群体存在偏见,在员工中历来存在该群体代表性不足的情况,这可能会扩大到后续的模型中

4. 人体实验

4.1. 人体实验是收集人体数据的常用方法

4.2. 人体实验是一项长期的科学实践,即对人体进行实验以研究和了解人类

4.3. 实验一词可被定义为“研究者故意改变内部或外部环境以观察该变化所产生的影响的行为

4.4. 人体实验对人类的影响可能比简单地点击一个广告要大得多

4.5. 《纽伦堡法典》的主要目的是防止此类可怕的实验再次发生,但事实上违背伦理的人体实验并未因此而终止

4.6. 知情同意

4.7. 将数据主体的风险降到最低,并将潜在获益最大化

4.8. 不仅在研究之初需要对其进行监督,在整个实验过程中也都需要进行伦理反思,特别是涉及历经多年的研究时更是如此

4.9. 指派一个人(甚至是一整个委员会)负责在进行数据科学项目期间跟进和尽量避免可能带来的伦理影响,或者在每一份研究报告中增加关于伦理反思的相关内容

4.10. A/B测试是一种常用的方法,你可以使用不同属性的两个组进行实验

4.11. C/D实验,即在没有预先警告的情况下,更改编程代码来操纵结果,从而故意欺骗用户

4.12. 当患者将遭受不适或疼痛时,知情同意就很有必要

4.13. 数字实验也需要征求知情同意、最大限度降低风险的同时将潜在利益最大化以及确保伦理监督,因为其造成的影响可能与医学实验一样大

4.14. 如果你打算通过可能会影响人们精神状态的人体实验来收集数据,最好要考虑到其产生的所有的伦理影响,其中包括获得知情同意、最大限度地减少对数据主体的潜在伤害以及确保伦理监督

上一篇 下一篇

猜你喜欢

热点阅读