1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91
| # PR_ML1903-Data.pdf 的批注摘要。 *文本 [前往页面 3]:* 定义出一个好的、明确的问题是最重要的,在这个前提下我们才考虑数据重要还是算法重要
*文本 [前往页面 3]:* 数据多不是关键,关键是要有噪音少,高效的数据
*下划线 [前往页面 4]:* 存储在数据库里,
*下划线 [前往页面 4]:* 例如所有格式的办公文档、图片、音\视频等
*波浪线 [前往页面 4]:* 具有一定结构,但语义不够确定,字段可根据 需要扩充
*下划线 [前往页面 4]:* ,例如XML、HTML网页。
*文本 [前往页面 11]:* 21 + {[(3200/2)-950]/1500}*29 = 39
*文本 [前往页面 13]:* 怎样理解分位数? 我们如果想知道一个公司员工最大和最小,我们会先排序,然后拿出最大的和最小的。
那么,如果想知道1/4 2/4/3/4位置处员工的工资呢?
此时,就要用分位数来表示
*文本 [前往页面 17]:* 表示的意思是:商店2的销售更好一些。 因为,商店1和2在相同的分位下,商店2的售价更高,这就说明了销售更好一些。
*下划线 [前往页面 26]:* 将输入数据设计成一种能适合所选学习方案的形式
*高亮 [前往页面 26]:* 输入数据
*下划线 [前往页面 26]:* 将输出模型设计得更为有效
*高亮 [前往页面 26]:* 输出模型
*文本 [前往页面 28]:* KNN基于周围的样本
*文本 [前往页面 30]:* 决策树算法
*文本 [前往页面 31]:* 区别:相对于算法是否独立
*文本 [前往页面 31]:* 核心是:如何定义一个新的模型,用目标函数来自动选择属性特征
*矩形 [前往页面 31]:* *文本 [前往页面 31]:* 直接的评价特征的,相当于一个独立的问题去解决
*文本 [前往页面 31]:* 从整个过程的角度去考虑,看上去更加全面一些
*文本 [前往页面 31]:* 理解: 通过判断不同属性下,统一模型下,这个模型的好坏评估标准来【反应】出属性的好坏,并不是【直接】的选择属性,所以叫做包裹。
*下划线 [前往页面 33]:* 最小的属性集
*下划线 [前往页面 34]:* 对于 n 个属性,有 2 n 个可能的子集
*矩形 [前往页面 40]:* *矩形 [前往页面 40]:* *文本 [前往页面 41]:* 主成分分析的目标是通过【转坐标轴】来让样本的离散度越高,因为区别越大,越好区分。
衡量区分是否大的依据是:样本映射到当前这个坐标后,在这个坐标上的方差的大小
并且,还要一个数学上的性质:在转坐标轴的过程中,各个坐标轴上方差的和是不变的。
*下划线 [前往页面 41]:* 第二个坐标轴与第一个坐标轴正交,且选择沿轴向 的方差达到最大值的方向作为第二个轴向
*高亮 [前往页面 41]:* 第一个坐标轴正交
*图章 [前往页面 41]:* IMAGE STAMP
*下划线 [前往页面 42]:* 主成分之间互不相关
*下划线 [前往页面 42]:* 通常惯例是先将所有属性进行 标准化
*下划线 [前往页面 42]:* 使之平均值为0且方差单元化
*文本 [前往页面 42]:* 身高身m还是cm对结果有一定的影响
*文本 [前往页面 42]:* PCA中我们一般默认选择10个属性
*下划线 [前往页面 43]:* 随着维数的升高,随机投影效果与主成分分析效 果的差距呈减小趋势
*下划线 [前往页面 43]:* 随机投影计算成本要低得多
*下划线 [前往页面 44]:* 趋向于使这样的属性具有较大的影响或较高的“权重
*下划线 [前往页面 47]:* 每个单词的属性值应该是什么
*文本 [前往页面 47]:* 这里指的是English
*下划线 [前往页面 48]:* 每个实例代表不同的时间间隙,属性给出了该时间 间隙所对应的值
*波浪线 [前往页面 48]:* 气象预报
*下划线 [前往页面 48]:* 实例并不代表定期的样本,每个实例的时间由特定 的时间戳(timestamp)属性给出
*下划线 [前往页面 48]:* 每个属性代表不同的时间
*波浪线 [前往页面 48]:* 上学经历
|