CPDA数据君:我们如何解决数据发现?
来源:CPDA数据分析师网 / 作者:数据君
学数据分析,可以问问数据君呦~ shujujun2016
收集和分析来自各种来源的数据
以便从隐藏的模式和趋势中获得洞察力,通过数据发现过程,可以按一系列步骤收集,合并和分析数据,目标是为了使凌乱且分散的数据干净,可理解且易于使用,为了从各种类型的数据中获得最大价值,组织必须进行数据发现,组织可以采取以下步骤使数据发现更容易,对公司更有价值,定义一组可重复的数据清理流程,并对其进行操作像金或银一样的数据被嵌入到泥土和岩石中,您必须删除无关的内容才能找到相关内容。除非您知道您的公司正在使用干净准确的数据,否则无法保证数据会带来业务价值。
在数据进入公司的每个点都应建立标准流程
以确保数据来自经过审查的数据,并且符合您的公司治理标准,必须识别并消除错误和重复的数据,在其他情况下,必须对数据进行规范化,以便将引用同一数据项的不同数据名称标准化为单个数据名称,如果您使用第三方数据源,则还应审查其数据清除技术,幸运的是可以使用数据清理工具和自动化来执行许多这些数据清理任务,通常很难证明投资于这些工具的投资回报率是合理的,但是像公司安全一样,它们是一项必要的投资,可以防止从不良数据中得出错误的业务决策的可能性。
CPDA数据分析师培训保持数据新鲜
就像昨天的新闻一样,数据也会很快老化,无论是实时,每天,每周还是每月,都应建立操作流程以定期刷新数据,业务部门的数据相关性需求变化也是如此迅速,以至于今天有用的数据可能在六个月后不再有用,为了避免存储和继续处理不再相关的数据,IT应该至少每年与业务部门会面一次,以确定哪些数据仍然相关,以及哪些数据不再需要保留,这有助于减少正在存储的数据量以及存储成本。
使用机器学习进行模式识别
有一个机器学习的地方,是AI数据处理的一个子集,人类开发的算法或观察结果可能会错过其中的隐藏模式。这使您的数据发现过程变得更加强大,因为它拓宽了您想要查找的数据洞察的范围,不要忘记黑暗的数据,大量以图片,视频和纸质文档形式存在的黑暗,非结构化数据被缓存在公司的储藏室和壁橱中,作为数字化工作的一部分,公司应查看这些暗数据,并确定哪些应数字化并链接到数据存储库中,哪些应丢弃。
构建新经济设想了数据合作,以使人们更容易控制和分析自己的财务和健康数据
对单个数据的本地控制,小镇或大城市的居民可以在合作社中汇总他们的数据,从而对这些数据进行分析以使成员受益。社区可以采用适合当地人口和经济状况的解决方案,而不是采用一种千篇一律的方法来满足医疗保健需求或银行服务,大流行的地理强度是需要本地解决方案的完美示例,因为某些地区的病例很多,而其他地区的病毒活动很少甚至没有,气候变化是国家挑战的另一个例子,它将需要不同的当地解决方案。
想法是使用分布式系统,使个人和城市可以控制自己的数据
目前健康保险公司和医院已经掌握了个人健康数据的主要控制权,而银行则通过分析客户数据而获得最大收益,个人可以访问该信息,但是没有简单的方法可以很好地利用它,如果较小的本地组织(如信用合作社)可以为人们创建一个安全的平台来管理自己的数据,那么这将把决策和控制权转移给个人和社区,而不是国有企业,增强对数据的本地控制将使领导者和人们能够找到适合其社区需求的解决方案,而不是使用一种万能的方法。
这里的规则完全不同,而对上半岛有用的东西在这里不起作用
这个想法是要在当地处理当地情况并在全球范围内进行协调,以便城市可以互相学习,但对自己负责“人类视角”,“弹性系统”以及“数据和人工智能”,健康IT:算法,隐私和数据;窄银行和法定货币支持的代币;稳定币,数字货币和货币的未来;和分布式系统的互操作性,除了解释这种新的数据所有权方法的总体框架之外,作者还提供了有关如何使这一新愿景变为现实的技术细节。
数据合作将如何工作?
了解如何支付驱动程序以及单个城市的付款是否相同,这种方法将有助于解决导致剥削和不公平的缺乏透明度,如果社区汇总其数据,则可以带来很大的透明度,高管使用该数据来最大化公司利润并制定业务战略,这些数据合作社的最大障碍是许多企业将这些数据视为资产,使个人和竞争对手易于查看和使用此数据将是竞争劣势。
将算法移至数据:而不是将数据“拉”入集中位置进行处理,而是必须将算法传输到数据存储库端点并在此处进行处理。
数据绝不能离开其存储库:绝不能从其存储库中导出或复制数据。可以应用其他本地数据丢失保护,例如加密(例如同态加密),以防止数据被盗用。
审查过的算法:必须对算法进行审查,以使其免受偏见,歧视,侵犯隐私和其他意外后果的“安全”。
仅提供安全的答案:从执行一种或多种算法返回结果时,仅将汇总答案作为响应的默认粒度返回。