0%

2018年12月4日 下午3:54
注:安装环境为mac

参考文章:

『 Hadoop 』Mac下Hadoop的安装与使用 | codingXiaxw’s blog

注:在~/.bash_profile中添加了hadoop环境变量之后,会报错,不知道为啥
WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. ERROR: Invalid HADOOP_COM

安装过程:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
#检查ssh
localhost:.ssh czh$ ssh localhost
ssh: connect to host localhost port 22: Connection refused
#解决ssh报错
localhost:.ssh czh$ sudo systemsetup -f -setremotelogin on
Password:
localhost:.ssh czh$ ssh localhost
The authenticity of host 'localhost (::1)' can't be established.
ECDSA key fingerprint is SHA256:aMXtT+wLOOzuTURVzgY2xkHFEsOeFke0gz8i1spYTNM.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'localhost' (ECDSA) to the list of known hosts.
Password:
Last login: Mon Dec 3 18:45:03 2018
#免密码
localhost:~ czh$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
localhost:~ czh$ cd .ssh
localhost:.ssh czh$ ls
authorized_keys id_rsa id_rsa.pub known_hosts
#查找hadoop
localhost:.ssh czh$ brew search hadoop
==> Formulae
hadoop
#安装hadoop
localhost:.ssh czh$ brew install hadoop
Updating Homebrew...
==> Auto-updated Homebrew!
Updated 1 tap (homebrew/core).
==> Updated Formulae
composer ✔ flume libgphoto2 shellcheck
apache-arrow-glib fx libswiften tomcat@7
circleci gphoto2 nng tomcat@8
embulk haskell-stack phpunit

==> Downloading https://www.apache.org/dyn/closer.cgi?path=hadoop/common/hadoop-
==> Downloading from http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-3.1.
######################################################################## 100.0%
🍺 /usr/local/Cellar/hadoop/3.1.1: 21,637 files, 770.8MB, built in 9 minutes 57 seconds
#此处省略对hadoop的配置,去按照网上的要求去配置就可以了
#格式化hdfs
localhost:hadoop czh$ hdfs namenode -format
2018-12-03 19:41:31,993 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/127.0.0.1
************************************************************/
localhost:hadoop czh$

启动命令

1
2
3
cd /usr/local/Cellar/hadoop/3.1.1/sbin
./start-all.sh
./stop-all.sh



2018年11月23日 下午3:31

第四范式

  1. 深度
    1. 深度模型在某些问题上从来没有发挥出数据的全部价值,离真正的个性化尚有差距(也就是说失去了微观的特征)
    2. 深度窄网络刻画宏观特征之间的关系
      1. 因为:越深的话,感受野越大,提取的特征越接近的特征
  2. 宽度
    1. 宽度模型则在推理能力上略逊一筹
    2. 利用宽度浅层网络记忆微观特征,但无法刻画微观特征之间的复杂关系
  3. 总结:
    1. 这里关键的问题就是特征的大小
    2. 深度宽了之后你的脸可以提取出鼻子,眼睛。窄了之后只能提取出你的整个脸了
  4. ps:我觉得深度也是可以提取出微观特征的呀,而且有一个深度和宽度的等价关系,也说明了深度的学习能力是比宽度的学习能力强!!!!

2018年11月19日 下午11:19

XML中文版_XML中文教程_XML开发中文手册PDF下载-极客学院Wiki

  1. XML:是一门标记语言。
    1. 这里的标记就好像是在咱们做笔记一样,让人明白你这句话,这个词时啥意思。
    2. 当然,前提是你需要向别人说明你的标记代表着啥,比如说波浪线代表主旨句等等
      1. 在XML中这是叫做:文档类型定义(DTDs)+XML 模式

2018年11月19日 下午10:38

搜索定义——> 启发函数——> 添加搜索的约束——> 搜索的过程中添加了策略(搜索的目标方向会发生变化,不只是单一的一个)

具体结合ppt的例子理解吧

2018年11月19日 下午10:20

采样方法 | 记录思考

  1. 使用采样法解决问题的步骤+原理
    1. 本质:就是将一个问题转化为概率问题来解决。
    2. 目的:直接求解不容易,通过概率来求近似解,也一定是近似解
  2. 分布决定了采集到的样本,而分布的产生我们可以采用不同的策略,文中就将了一些重要的策略。

其他:随机模拟的基本思想和常用采样方法(sampling) - Xianling Mao的专栏 - CSDN博客

2018年11月19日 下午10:08

我这里只是大概懂了原理,细节的东西我还没有关注。

极大极小算法有些不明白 ? - 知乎
极小极大搜索方法、负值最大算法和Alpha-Beta搜索方法 - xiaodongrush - 博客园

  1. 假设:会有专门的算法来根据当前结果给不同的分数
  2. 通俗讲解:
    1. 假设自己是棋手,我们要知道五步以后所有情况,我们要判断每种情况的好坏(一个分数)
    2. 这时我们要倒退出自己当前应该怎样走,才能拿到第五步最高的分数。
    3. 这里要注意,五步所有的情况中,最高分我们一般是拿不到的,因为对手会在下棋的时候阻止我拿到最高分。
  3. 这里的关键是:将当前的棋盘能够编码为一个分数,这样计算机才可以计算。
    1. 这种编码方式,也是一开始很难理解的原因。

2018年11月19日 下午9:25

用大白话聊聊分布式系统 | waylau.com
distributed-java/basic.md at master · waylau/distributed-java · GitHub

  1. 什么是分布式系统?
  2. 分布式系统有哪些优势
    1. 分布式系统的扩展和升级都比较容易。
    2. 分布式系统某些节点故障,不影响整理可用
  3. 分布式系统会面临哪里挑战
    1. 这里涉及到了很多的“性”,这里面关键的一点是: *要明白这些性之间是会出现相互矛盾的
    2. 并且,这些性是很不好理解的,因为他们太抽想了,需要结合具体的实例才可以理解
  4. 如何来设计分布式?
    1. 系统如何拆分为子系统
    2. 如何规划子系统间的通信
    3. 通信过程中的安全如何考虑?
    4. 如何让子系统可以扩展
    5. 子系统的可靠性如何保证?
    6. 数据的一致性是如何实现的?
  5. 为什么选择Java 分布式系统
    1. 它的目的是作为一个生产性语言,而不是一个研究性语言,因此,在设计上避免了包括新的和未经考验的功能。
    2. Java 天然支持分布式应用
    3. Java 分布式系统应用广泛,且久经考验
    4. Java 拥有丰富的中间件框架,避免了很多底层编码的复杂性,帮助你站在巨人的肩膀上。

带着问题学习分布式系统之数据分片 - 云+社区 - 腾讯云
本文主要讨论数据分片的三个问题:

  1. 如何做数据分片,即如何将数据映射到节点
    1. 一共有三种数据分片的方式
  2. 数据分片的特征值,即按照数据中的哪一个属性(字段)来分片
    1. ::还没看::
  3. 数据分片的元数据的管理,如何保证元数据服务器的高性能、高可用,如果是一组服务器,如何保证强一致性
    1. ::还没看::

mongodb 3.4 集群搭建:分片+副本集 - 纯洁的微笑博客

CAP理论中的P到底是个什么意思? - 知乎

CAP和ACID的区别:

ACID和CAP的详尽比较 -解道Jdon
谈谈对数据库中ACID、CAP、BASE的认识 - 张龙斌的个人空间 - 开源中国

2018年11月19日 下午3:00

数据库背后所代表的知识其实是分布式相关的知识!

并发+分布式+计算机网络共同的特点

  1. 有明显高低层次,下层对于上层来说是透明的,下层对上层只提供接口
  2. 并且层次结构中:都是从物理层开始到软件层,在这个过程都在不断的体现封装这个特点。
  3. 并且这三个描述的范围一个比一个大:
    1. 并发:描述的是单个计算机
    2. 分布式:描述的是多个计算机
    3. 计算机网络:描述的是无数的计算机

并发:

  1. 这幅图中缺少对物理层(也就是cpu层)的体现。cpu层+上图6部分 = 7部分。
  2. 这7部分可以说是对:从物理层到软件层的不断封装,尤其体现出了软件的不断封装。

计算机网络:

  1. 计算机网络的分级是研究最彻底,也是最容易理解的一个。这里就不赘述了。