大数据和分布式关系

2019年1月11日下午3:02

大数据和分布式的关系是一体两面。
1. 大数据的本质是将取代数据的迁移，而是使用软件程序的迁移来解决当前面临的数据量大难以获取有效信息来辅助决策的问题，
2. 分布式的本质是为了解决当前技术面临的两个问题，
  1. 一个是资源层次上的充分使用来解决容量和处理性能的问题
  2. 一个是从容错角度去思考遇到的问题
  3. 从这两个问题为出发点，我们可以思考到对应的解决方案
    1. 资源服务的调度—硬件
    2. 流量的调度
    3. 数据的调度
    4. 自动化监测。
至此，大数据和分布式的核心概念我门已经掌握清楚，那么回答这个问题也水到渠成，正是应为我们在实际的生活中遇到了这些问题，从问题的角度出发，才将我们的思路引到了大数据和分布式这样的技术，当然这样的问题一般都是从大企业中发现并开始尝试解决，大数据分布式的鼻祖应该是亚马逊和谷歌，亚马逊当初的AWS和谷歌的搜索引擎项目为源头引发了这样的问题。
对这栏项目的总结
1. 分布式从调度的角度，有两种资源的调度，数据和处理能力。
2. spark、hadoop、hive、hdfs这些项目都是我这篇文章中提出四个问题的其中一种解决方案，他不一定最好，也一定有更好的思想去解决这样的问题，只不过人们对它已经有了依赖性。
3. 所以说，不要就夸大这些项目的神奇，更要理解大数据本身。
4. 常用!=唯一!=最好