Hadoop安装,使用

发表于 2018-12-04 更新于 2020-06-08 分类于 b计算机基础/g_分布式/大数据/环境阅读次数：
本文字数： 2.2k 阅读时长 ≈ 2 分钟

2018年12月4日下午3:54
注：安装环境为mac

参考文章：

『 Hadoop 』Mac下Hadoop的安装与使用 | codingXiaxw’s blog

注：在~/.bash_profile中添加了hadoop环境变量之后，会报错，不知道为啥
WARNING: log4j.properties is not found. HADOOP_CONF_DIR may be incomplete. ERROR: Invalid HADOOP_COM

安装过程：

#检查ssh
localhost:.ssh czh$ ssh localhost
ssh: connect to host localhost port 22: Connection refused
#解决ssh报错
localhost:.ssh czh$ sudo systemsetup -f -setremotelogin on
Password:
localhost:.ssh czh$ ssh localhost
The authenticity of host 'localhost (::1)' can't be established.
ECDSA key fingerprint is SHA256:aMXtT+wLOOzuTURVzgY2xkHFEsOeFke0gz8i1spYTNM.
Are you sure you want to continue connecting (yes/no)? yes
Warning: Permanently added 'localhost' (ECDSA) to the list of known hosts.
Password:
Last login: Mon Dec  3 18:45:03 2018
#免密码
localhost:~ czh$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
localhost:~ czh$ cd .ssh
localhost:.ssh czh$ ls
authorized_keys	id_rsa		id_rsa.pub	known_hosts
#查找hadoop
localhost:.ssh czh$ brew search hadoop
==> Formulae
hadoop
#安装hadoop
localhost:.ssh czh$ brew install hadoop
Updating Homebrew...
==> Auto-updated Homebrew!
Updated 1 tap (homebrew/core).
==> Updated Formulae
composer ✔          flume               libgphoto2          shellcheck
apache-arrow-glib   fx                  libswiften          tomcat@7
circleci            gphoto2             nng                 tomcat@8
embulk              haskell-stack       phpunit

==> Downloading https://www.apache.org/dyn/closer.cgi?path=hadoop/common/hadoop-
==> Downloading from http://mirrors.hust.edu.cn/apache/hadoop/common/hadoop-3.1.
######################################################################## 100.0%
🍺  /usr/local/Cellar/hadoop/3.1.1: 21,637 files, 770.8MB, built in 9 minutes 57 seconds
#此处省略对hadoop的配置，去按照网上的要求去配置就可以了
#格式化hdfs
localhost:hadoop czh$ hdfs namenode -format
2018-12-03 19:41:31,993 INFO namenode.NameNode: STARTUP_MSG:
/************************************************************
SHUTDOWN_MSG: Shutting down NameNode at localhost/127.0.0.1
************************************************************/
localhost:hadoop czh$

启动命令

1
2
3

cd /usr/local/Cellar/hadoop/3.1.1/sbin
./start-all.sh
./stop-all.sh

网络的宽度和深度

发表于 2018-11-23 更新于 2020-03-12 分类于 c数据科学/mac_机器学习/入门阶段/小象机器学习/knowledge 阅读次数：
本文字数： 277 阅读时长 ≈ 1 分钟

2018年11月23日下午3:31

第四范式

深度
1. 深度模型在某些问题上从来没有发挥出数据的全部价值，离真正的个性化尚有差距(也就是说失去了微观的特征)
2. 深度窄网络刻画宏观特征之间的关系
  1. 因为：越深的话，感受野越大，提取的特征越接近的特征
宽度
1. 宽度模型则在推理能力上略逊一筹
2. 利用宽度浅层网络记忆微观特征，但无法刻画微观特征之间的复杂关系
总结：
1. 这里关键的问题就是特征的大小
2. 深度宽了之后你的脸可以提取出鼻子，眼睛。窄了之后只能提取出你的整个脸了
ps：我觉得深度也是可以提取出微观特征的呀，而且有一个深度和宽度的等价关系，也说明了深度的学习能力是比宽度的学习能力强！！！！

XML

发表于 2018-11-19 更新于 2020-03-12 分类于 web开发/czh_blog/数据库阅读次数：
本文字数： 167 阅读时长 ≈ 1 分钟

2018年11月19日下午11:19

XML中文版_XML中文教程_XML开发中文手册PDF下载-极客学院Wiki

XML：是一门标记语言。
1. 这里的标记就好像是在咱们做笔记一样，让人明白你这句话，这个词时啥意思。
2. 当然，前提是你需要向别人说明你的标记代表着啥，比如说波浪线代表主旨句等等
  1. 在XML中这是叫做：文档类型定义（DTDs）+XML 模式

模糊推理

发表于 2018-11-19 更新于 2020-03-12 分类于 c数据科学/mac_机器学习/缪青海阅读次数：
本文字数： 32 阅读时长 ≈ 1 分钟

2018年11月19日下午11:08

模糊推理 - 雨石 - CSDN博客

搜索方法的演进

发表于 2018-11-19 更新于 2020-03-12 分类于 c数据科学/mac_机器学习/缪青海阅读次数：
本文字数： 98 阅读时长 ≈ 1 分钟

2018年11月19日下午10:38

搜索定义——> 启发函数——> 添加搜索的约束——> 搜索的过程中添加了策略(搜索的目标方向会发生变化，不只是单一的一个)

具体结合ppt的例子理解吧

采样方法

发表于 2018-11-19 更新于 2020-03-12 分类于 c数据科学/mac_机器学习/缪青海阅读次数：
本文字数： 185 阅读时长 ≈ 1 分钟

2018年11月19日下午10:20

采样方法 | 记录思考

使用采样法解决问题的步骤+原理
1. 本质：就是将一个问题转化为概率问题来解决。
2. 目的：直接求解不容易，通过概率来求近似解，也一定是近似解
分布决定了采集到的样本，而分布的产生我们可以采用不同的策略，文中就将了一些重要的策略。

其他：随机模拟的基本思想和常用采样方法（sampling） - Xianling Mao的专栏 - CSDN博客

博弈论中的极大极小算法

发表于 2018-11-19 更新于 2020-03-12 分类于 c数据科学/mac_机器学习/缪青海阅读次数：
本文字数： 305 阅读时长 ≈ 1 分钟

2018年11月19日下午10:08

我这里只是大概懂了原理，细节的东西我还没有关注。

极大极小算法有些不明白 ? - 知乎
 极小极大搜索方法、负值最大算法和Alpha-Beta搜索方法 - xiaodongrush - 博客园

假设：会有专门的算法来根据当前结果给不同的分数
通俗讲解：
1. 假设自己是棋手，我们要知道五步以后所有情况，我们要判断每种情况的好坏(一个分数)
2. 这时我们要倒退出自己当前应该怎样走，才能拿到第五步最高的分数。
3. 这里要注意，五步所有的情况中，最高分我们一般是拿不到的，因为对手会在下棋的时候阻止我拿到最高分。
这里的关键是：将当前的棋盘能够编码为一个分数，这样计算机才可以计算。
1. 这种编码方式，也是一开始很难理解的原因。

机器学习算法集锦：从贝叶斯到深度学习及各自优缺点

发表于 2018-11-19 更新于 2020-03-12 分类于 c数据科学/mac_机器学习/入门阶段/小象机器学习/knowledge 阅读次数：
本文字数： 55 阅读时长 ≈ 1 分钟

2018年11月19日下午9:50

机器学习算法集锦：从贝叶斯到深度学习及各自优缺点
注：同时，也对算法进行了分类

分布式的整体理解

发表于 2018-11-19 更新于 2020-03-12 分类于 web开发/czh_blog/数据库阅读次数：
本文字数： 748 阅读时长 ≈ 1 分钟

2018年11月19日下午9:25

用大白话聊聊分布式系统 | waylau.com
distributed-java/basic.md at master · waylau/distributed-java · GitHub

什么是分布式系统？
分布式系统有哪些优势？
1. 分布式系统的扩展和升级都比较容易。
2. 分布式系统某些节点故障，不影响整理可用
分布式系统会面临哪里挑战？
1. 这里涉及到了很多的“性”，这里面关键的一点是： *要明白这些性之间是会出现相互矛盾的。
2. 并且，这些性是很不好理解的，因为他们太抽想了，需要结合具体的实例才可以理解
如何来设计分布式？
1. 系统如何拆分为子系统？
2. 如何规划子系统间的通信？
3. 通信过程中的安全如何考虑？
4. 如何让子系统可以扩展？
5. 子系统的可靠性如何保证？
6. 数据的一致性是如何实现的？
为什么选择Java 分布式系统
1. 它的目的是作为一个生产性语言，而不是一个研究性语言，因此，在设计上避免了包括新的和未经考验的功能。
2. Java 天然支持分布式应用
3. Java 分布式系统应用广泛，且久经考验
4. Java 拥有丰富的中间件框架，避免了很多底层编码的复杂性，帮助你站在巨人的肩膀上。