特征工程与竞赛

2019年3月23日下午9:39

对数据的基本统计全部都是基于一定假设的，这个假设就是一个我们估计出可能满足的分布。

重点是意识到这个是我们人类猜的，并不一定是真是情况（在学习的过程中，由于总是学具体的方法步骤，往往容易忽略这些本质的问题。）
假设：明天是晴天是个随机变量，是满足某种分布的，那么我们怎么确定他的分布？这时就需要计算各种统计量，这就是我们要计算各种统计量的原因。但是考虑特殊的离群点，这时会造成统计量的错误，进而造成分布的错误。面多这种情况，我们就要选取更加合适的其他统计量。

目前产生假设的两种方法(选择不同的策略对数据进行处理)：

人根据经验进行假设。
1. 是人产生的，有人的个人偏好
算法来产生假设

这两句话是这节内容的核心，可以这样理解：

在模型给定的限制条件下(直接用库，不创造)，我们如何让模型和数据更好的融为一体，达到更好的效果？
1. 这里提供了两个思考的角度：
  1. 模型不变的情况下，我们调节数据，做特征工程
    1. 本节内容的核心。
  2. 数据不变的情况下，我们调节模型，这里列举了两种方式
为什么会有这个问题？
1. 在竞赛的过程中，这个过程尤为明显。
2. 大家拿到的都是原始的数据、开放的模型，为什么效果差那么多呢？
  1. 因为：数据和模型没有做到水乳交融，而是分床睡！
3. 可以从一下角度进行分析：
  1. 数据处理
  2. 模型评估
  3. 模型调参

具体内容看PPT3：

模式识别与机器学习

# PR_ML1903-Data.pdf 的批注摘要。
 *文本 [前往页面 3]:* 定义出一个好的、明确的问题是最重要的，在这个前提下我们才考虑数据重要还是算法重要

 *文本 [前往页面 3]:* 数据多不是关键，关键是要有噪音少，高效的数据

 *下划线 [前往页面 4]:* 存储在数据库里，

 *下划线 [前往页面 4]:* 例如所有格式的办公文档、图片、音\视频等

 *波浪线 [前往页面 4]:* 具有一定结构,但语义不够确定，字段可根据 需要扩充

 *下划线 [前往页面 4]:* ，例如XML、HTML网页。

 *文本 [前往页面 11]:* 21 + {[(3200/2)-950]/1500}*29 = 39

 *文本 [前往页面 13]:* 怎样理解分位数？
我们如果想知道一个公司员工最大和最小，我们会先排序，然后拿出最大的和最小的。 那么，如果想知道1/4 2/4/3/4位置处员工的工资呢？ 此时，就要用分位数来表示

 *文本 [前往页面 17]:* 表示的意思是：商店2的销售更好一些。
因为，商店1和2在相同的分位下，商店2的售价更高，这就说明了销售更好一些。

 *下划线 [前往页面 26]:* 将输入数据设计成一种能适合所选学习方案的形式

 *高亮 [前往页面 26]:* 输入数据

 *下划线 [前往页面 26]:* 将输出模型设计得更为有效

 *高亮 [前往页面 26]:* 输出模型

 *文本 [前往页面 28]:* KNN基于周围的样本

 *文本 [前往页面 30]:* 决策树算法

 *文本 [前往页面 31]:* 区别：相对于算法是否独立

 *文本 [前往页面 31]:* 核心是：如何定义一个新的模型，用目标函数来自动选择属性特征

 *矩形 [前往页面 31]:* 
 *文本 [前往页面 31]:* 直接的评价特征的，相当于一个独立的问题去解决

 *文本 [前往页面 31]:* 从整个过程的角度去考虑，看上去更加全面一些

 *文本 [前往页面 31]:* 理解：
通过判断不同属性下，统一模型下，这个模型的好坏评估标准来【反应】出属性的好坏，并不是【直接】的选择属性，所以叫做包裹。

 *下划线 [前往页面 33]:* 最小的属性集

 *下划线 [前往页面 34]:* 对于 n 个属性，有 2 n 个可能的子集

 *矩形 [前往页面 40]:* 
 *矩形 [前往页面 40]:* 
 *文本 [前往页面 41]:* 主成分分析的目标是通过【转坐标轴】来让样本的离散度越高，因为区别越大，越好区分。 衡量区分是否大的依据是：样本映射到当前这个坐标后，在这个坐标上的方差的大小 并且，还要一个数学上的性质：在转坐标轴的过程中，各个坐标轴上方差的和是不变的。


 *下划线 [前往页面 41]:* 第二个坐标轴与第一个坐标轴正交，且选择沿轴向 的方差达到最大值的方向作为第二个轴向

 *高亮 [前往页面 41]:* 第一个坐标轴正交

 *图章 [前往页面 41]:* IMAGE STAMP

 *下划线 [前往页面 42]:* 主成分之间互不相关

 *下划线 [前往页面 42]:* 通常惯例是先将所有属性进行 标准化

 *下划线 [前往页面 42]:* 使之平均值为0且方差单元化

 *文本 [前往页面 42]:* 身高身m还是cm对结果有一定的影响

 *文本 [前往页面 42]:* PCA中我们一般默认选择10个属性


 *下划线 [前往页面 43]:* 随着维数的升高，随机投影效果与主成分分析效 果的差距呈减小趋势

 *下划线 [前往页面 43]:* 随机投影计算成本要低得多

 *下划线 [前往页面 44]:* 趋向于使这样的属性具有较大的影响或较高的“权重

 *下划线 [前往页面 47]:* 每个单词的属性值应该是什么

 *文本 [前往页面 47]:* 这里指的是English


 *下划线 [前往页面 48]:* 每个实例代表不同的时间间隙，属性给出了该时间 间隙所对应的值

 *波浪线 [前往页面 48]:* 气象预报

 *下划线 [前往页面 48]:* 实例并不代表定期的样本，每个实例的时间由特定 的时间戳（timestamp）属性给出

 *下划线 [前往页面 48]:* 每个属性代表不同的时间

 *波浪线 [前往页面 48]:* 上学经历