0%

特征工程与竞赛

2019年3月23日 下午9:39

对数据的基本统计全部都是基于一定假设的,这个假设就是一个我们估计出可能满足的分布。

  1. 重点是意识到这个是我们人类猜的,并不一定是真是情况(在学习的过程中,由于总是学具体的方法步骤,往往容易忽略这些本质的问题。)
  2. 假设:明天是晴天是个随机变量,是满足某种分布的那么我们怎么确定他的分布?这时就需要计算各种统计量,这就是我们要计算各种统计量的原因。但是考虑特殊的离群点,这时会造成统计量的错误,进而造成分布的错误。面多这种情况,我们就要选取更加合适的其他统计量。

目前产生假设的两种方法(选择不同的策略对数据进行处理):

  1. 人根据经验进行假设。
    1. 是人产生的,有人的个人偏好
  2. 算法来产生假设

这两句话是这节内容的核心,可以这样理解:

  1. 模型给定的限制条件下(直接用库,不创造),我们如何让模型和数据更好的融为一体,达到更好的效果?
    1. 这里提供了两个思考的角度:
      1. 模型不变的情况下,我们调节数据,做特征工程
        1. 本节内容的核心。
      2. 数据不变的情况下,我们调节模型,这里列举了两种方式
  2. 为什么会有这个问题?
    1. 在竞赛的过程中,这个过程尤为明显。
    2. 大家拿到的都是原始的数据、开放的模型,为什么效果差那么多呢?
      1. 因为:数据和模型没有做到水乳交融,而是分床睡!
    3. 可以从一下角度进行分析:
      1. 数据处理
      2. 模型评估
      3. 模型调参

具体内容看PPT3:

模式识别与机器学习

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
# PR_ML1903-Data.pdf 的批注摘要。
*文本 [前往页面 3]:* 定义出一个好的、明确的问题是最重要的,在这个前提下我们才考虑数据重要还是算法重要

*文本 [前往页面 3]:* 数据多不是关键,关键是要有噪音少,高效的数据

*下划线 [前往页面 4]:* 存储在数据库里,

*下划线 [前往页面 4]:* 例如所有格式的办公文档、图片、音\视频等

*波浪线 [前往页面 4]:* 具有一定结构,但语义不够确定,字段可根据 需要扩充

*下划线 [前往页面 4]:* ,例如XML、HTML网页。

*文本 [前往页面 11]:* 21 + {[(3200/2)-950]/1500}*29 = 39

*文本 [前往页面 13]:* 怎样理解分位数?
我们如果想知道一个公司员工最大和最小,我们会先排序,然后拿出最大的和最小的。
那么,如果想知道1/4 2/4/3/4位置处员工的工资呢?
此时,就要用分位数来表示

*文本 [前往页面 17]:* 表示的意思是:商店2的销售更好一些。
因为,商店1和2在相同的分位下,商店2的售价更高,这就说明了销售更好一些。

*下划线 [前往页面 26]:* 将输入数据设计成一种能适合所选学习方案的形式

*高亮 [前往页面 26]:* 输入数据

*下划线 [前往页面 26]:* 将输出模型设计得更为有效

*高亮 [前往页面 26]:* 输出模型

*文本 [前往页面 28]:* KNN基于周围的样本

*文本 [前往页面 30]:* 决策树算法

*文本 [前往页面 31]:* 区别:相对于算法是否独立

*文本 [前往页面 31]:* 核心是:如何定义一个新的模型,用目标函数来自动选择属性特征

*矩形 [前往页面 31]:*
*文本 [前往页面 31]:* 直接的评价特征的,相当于一个独立的问题去解决

*文本 [前往页面 31]:* 从整个过程的角度去考虑,看上去更加全面一些

*文本 [前往页面 31]:* 理解:
通过判断不同属性下,统一模型下,这个模型的好坏评估标准来【反应】出属性的好坏,并不是【直接】的选择属性,所以叫做包裹。

*下划线 [前往页面 33]:* 最小的属性集

*下划线 [前往页面 34]:* 对于 n 个属性,有 2 n 个可能的子集

*矩形 [前往页面 40]:*
*矩形 [前往页面 40]:*
*文本 [前往页面 41]:* 主成分分析的目标是通过【转坐标轴】来让样本的离散度越高,因为区别越大,越好区分。
衡量区分是否大的依据是:样本映射到当前这个坐标后,在这个坐标上的方差的大小
并且,还要一个数学上的性质:在转坐标轴的过程中,各个坐标轴上方差的和是不变的。


*下划线 [前往页面 41]:* 第二个坐标轴与第一个坐标轴正交,且选择沿轴向 的方差达到最大值的方向作为第二个轴向

*高亮 [前往页面 41]:* 第一个坐标轴正交

*图章 [前往页面 41]:* IMAGE STAMP

*下划线 [前往页面 42]:* 主成分之间互不相关

*下划线 [前往页面 42]:* 通常惯例是先将所有属性进行 标准化

*下划线 [前往页面 42]:* 使之平均值为0且方差单元化

*文本 [前往页面 42]:* 身高身m还是cm对结果有一定的影响

*文本 [前往页面 42]:* PCA中我们一般默认选择10个属性


*下划线 [前往页面 43]:* 随着维数的升高,随机投影效果与主成分分析效 果的差距呈减小趋势

*下划线 [前往页面 43]:* 随机投影计算成本要低得多

*下划线 [前往页面 44]:* 趋向于使这样的属性具有较大的影响或较高的“权重

*下划线 [前往页面 47]:* 每个单词的属性值应该是什么

*文本 [前往页面 47]:* 这里指的是English


*下划线 [前往页面 48]:* 每个实例代表不同的时间间隙,属性给出了该时间 间隙所对应的值

*波浪线 [前往页面 48]:* 气象预报

*下划线 [前往页面 48]:* 实例并不代表定期的样本,每个实例的时间由特定 的时间戳(timestamp)属性给出

*下划线 [前往页面 48]:* 每个属性代表不同的时间

*波浪线 [前往页面 48]:* 上学经历