如果堆肥足够大,你最终会发现它的金币。这份说法经常用于解释为什么有人会使用大数据。毋庸置疑,在这一天和年龄,堆的数据如此之大,你可能最终找到了海盗的宝藏。

这堆东西有多大?

但这些数据什么时候才会大到可以认为是大数据呢?每维基百科

“大数据是数据集是如此大,并且复杂的传统数据处理应用程序软件不充分处理它们。”

因此,我们可以说,重要的不仅仅是数据集的大小,还有数据集的复杂性。然而,大数据对研究人员和科学家的吸引力并不在于其规模或复杂性,而在于如何通过计算分析来揭示模式、趋势和关联。

谈到大数据时,没有山足够高或太难攀爬。我们要分析的数据越多,我们可能能够派生的结论越多。如果数据集足够大,我们可以开始预测某些关系在未来将如何发展,甚至找到我们从未怀疑存在的关系。

我们提到预测未来或寻找有利的相关性是使用大数据分析的可能原因。举几个例子,大数据可以用来建立以下配置文件和流程:

  • 通过创建可能的攻击者和他们的方法来阻止恐怖袭击。
  • 使用个人角色更准确地定位营销计划的客户。
  • 通过建立风险概况计算保险费率。
  • 通过创建和监控访问者行为档案优化网站用户体验。
  • 分析工作流程,提高业务效率。
  • 通过分析和理解交通模式来改进城市规划。

谨防apophenia

Apophenia是在不相关的事物之间感知联系和意义的趋势。统计分析显示的两个事实或数据流之间的相关性可能只是一个巧合。可能还有第三个因素被忽略了,或者数据集可能被扭曲了。这可能导致错误的结论和出于错误的原因采取的行动。

例如,对收集到的病人数据进行分析,可以得出结论,关节炎患者也倾向于高血压。而在现实中,最流行的治疗关节炎的药物将高血压列为副作用。记住那句古老的研究格言:相关性不等于因果关系。

在统计学中,我们称之为第一类错误,它是许多神话、迷信和谬论的温床。

研究人员

随着越来越多的数据被数字化和存储,对大数据分析师的需求也在增长。最近的一项研究表明53%的采访公司以某种方式使用大数据。大数据用例的一些例子包括:

  • 数据仓库优化(被认为是大数据的顶级用例)
  • 员工满意度模式分析;例如,在跨国公司,0.1%的营业额增长被认为太高了
  • 体育统计与分析;有时,作为冠军或第二次进入的区别会降低到最微小的细节
  • 预后统计数据或特定药物的成功率会影响医生推荐的治疗疗程;一个准确的评估可能是生与死的区别
  • 选择购买和交易的股票;基于分析算法的快速决策给交易者带来了优势

在Ma必威平台APPlwarebytes,我们使用从我们的用户(那些允许它的用户)收集的匿名遥测技术形式的大数据来监控活跃的威胁。通过查看这些数据集,我们可以看到恶意软件的发展趋势,从正在使用的恶意软件类型到攻击的地理位置。

从这些数据中,我们可以得出结论,并在博客、报告中分享有价值的信息,比如我们的季度报告网络犯罪和技巧报告,甚至像我们为“想哭”创建的热图。(由于我们的产品在我们添加定义之前就检测到了“想哭”,这给了我们一些有关它可能起源于何处的宝贵信息。)

的工具

技术上,您需要分析大数据的工具取决于几个变量:

  • 数据是如何组织的?
  • 多大才算大?
  • 数据有多复杂?

当我们观察数据的组织时,我们不仅关注数据的结构和一致性,还关注数据的位置。它们是分散在多个服务器上,完全或部分地在云中,还是都在一个地方?

显然,均匀性使数据更易于比较和操作,但我们并不总是那么奢侈。它采用强大而聪明的统计工具,从多态性或不同结构的数据集中了解。

正如我们之前所看到的,数据的复杂性可能是我们需要特殊的大数据工具的另一个原因,即使数据的数量并不多。

随着大数据工具可用,它们仍处于开发的早期阶段,并非所有这些都准备好用于直观使用。它需要知识和熟悉最有效地使用它们。这就是个人偏好进入的地方。使用您拥有的工具,至少起初,您的体验总是更容易。

我们的个人数据

当我们上网时,我们留下了一条背后的数据,可以由营销人员(和罪犯)来介绍我们和环境。这使我们可预测到一定程度。Marketeers喜欢这种类型的可预测性,因为它使他们能够弄清楚他们可以卖给我们的东西,多少钱,而且价格。如果您在Facebook上搜索谷歌时,您在Facebook上看到了复古太阳镜的广告,答案是大数据。

想象一个虚拟助手在首次考虑假期时,可以检索旅行安排信息。酒店,机票价格,活动,饮料和饮品酒店可以在您喜爱的位置列出您的喜好,并在您的价格范围内眨眼间。有些人可能会发现这种可怕,其他人会考虑方便。然而,您觉得,虚拟助手能够因为它在线收集您和您的行为而做到这一点。

数据驱动的社会

对我们社会的大数据的主要贡献之一将通过事情互联网(物联网).物联网代表了我们所经历过的物质世界和网络世界之间最直接的联系。这些信息物理系统当然会受到我们为它们创造的对象和软件的影响,但它们最大的影响将是对它们收集的数据应用算法的结果。

随着这些系统的发展,我们有望进入一个数据驱动的社会,大数据在调整生产以满足我们的预期需求方面发挥着重要作用。在这个领域,我们未来需要防范措施,防止大数据变成“老大哥”。

大数据,大违规

这里的明显警告是,收集和操纵大数据需要额外关注安全和隐私,特别是当数据值得窃取时。虽然原始数据集可能看起来像低风险资产,但那些知道如何在粪便中找到金(网络)硬币的人否则会看到。出现GDPR今年5月,任何形式的个人身份信息(PII)都将被迫切寻求,因为保护PII场所的措施危及围绕它建立起来的活跃的黑市交易。

那么,课程是为了善良和邪恶的严重数据的影响。也许整个桩应该被认为是宝藏。