评价指标之：AUC

发表于 2019-04-19 更新于 2020-03-12 分类于 c数据科学/czh_机器学习/knowledge 阅读次数：
本文字数： 526 阅读时长 ≈ 1 分钟

2019年4月19日上午10:27

机器学习篇-指标：AUC - 知乎

如何理解机器学习和统计中的AUC？ - 知乎

2019年5月27日下午10:36补充
机器学习之分类性能度量指标 : ROC曲线、AUC值、正确率、召回率 - 简书

其实我认为多个角度的评价，这几个评价标准基本上可以认为是正相关关系
1. 只不过不同的评价方法更注重的角度不同，我们根据自己的需要选取自己的评价标准就可以了

AUC概念:

个例：一对
1. 随机给定一个正样本和一个负样本，分类器输出该 正样本为正的那个概率值 比分类器输出 该负样本为正的那个概率值 要大的可能性。
2. 注意：
  1. 只有一对数据
  2. 求的是：大的可能性
总体：从一对扩展到 M*N对
1. 一个正样本要和N个负样本匹配成N对
2. 那么：将M+N个样本按照概率由大到小排序后，对于任意的一个正样本，计算比它概率小的负样本的个数
  1. 因为我们求的是大的可能性
3. 对每一个正样本这样处理后： 然后求和，除以M*N，即为AUC

特性：

AUC应该反映的是分类器对样本的排序能力，另外，AUC对样本类别是否均衡并不敏感，这也是不均衡样本通常采用AUC评价分类性能的原因
还有一些其他的特性：我还没有研究：

为什么使用ROC曲线

因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时候，ROC曲线能够保持不变。

向量时钟（Vector Clock）

发表于 2019-04-19 更新于 2020-06-08 分类于 b计算机基础/g_分布式/云计算阅读次数：
本文字数： 53 阅读时长 ≈ 1 分钟

2019年4月19日下午7:58

这个规则是用来检测是否冲突，并不能根据这套规则来解决冲突，这么看就很简单了

quorum机制

发表于 2019-04-19 更新于 2020-06-08 分类于 b计算机基础/g_分布式/云计算阅读次数：
本文字数： 123 阅读时长 ≈ 1 分钟

2019年4月19日下午7:52

我是这么理解的：能够放松条件的原因(从半数变成W+R>N)，是由于原先的半数是要求的单次读/单次写，而弱quorum的约束是针对一对操作(读、写)。正是由于加上了这个隐含的约束，所以它才能够保证操作的正确性。

目录(云计算)

发表于 2019-04-19 更新于 2020-06-08 分类于 b计算机基础/g_分布式/云计算阅读次数：
本文字数： 202 阅读时长 ≈ 1 分钟

2019年4月19日下午7:43

2019年6月24日下午12:08
linux服务器常用指令
2019年5月13日下午9:26
shadowSock(ss)的原理
2019年5月6日上午11:52
PageRank

2019年4月19日下午7:43
cpu虚拟化技术
 向量时钟（Vector Clock）
quorum机制
 SDN：软件定义网络
 一致性哈希中的虚拟节点
 数据中心网络
 分布式散列表（DHT）
云计算的核心算法(CAP)

第四周：学会在思路阶段思考问题

发表于 2019-04-16 更新于 2020-06-08 分类于 b计算机基础/h_算法/leetcode/题目阅读次数：
本文字数： 1.6k 阅读时长 ≈ 1 分钟

2019年4月16日下午2:02

正如群里大神所说：我在思路阶段没有认真思考，导致返工浪费时间。
1. 我的发现我有一个特点：把问题想复杂，自己给自己找事。
2. 解决方法：不断的提醒自己，这题没有多复杂，正常做就行，你的目标是解决问题，而不是高深的算法，别本末倒置
3. 目的是为了简化问题，而不是加大难度
而且，我的编码能力的确还有待提高

/*
* 我写的这个算法效率非常低，低于95%
* 1.如何新建链表，这里要理解对象是创建在堆中的，不会释放
* 2.这里没有求链表的长度，而是使用是否等于null来判断
* 3.在思路阶段：我没有认真的分析题目，把问题想复杂了，我现在也不知道我当初在是怎么想的，说明当初就是没有逻辑的瞎想
* 4.在编码阶段：我对链表中的指针到底指向谁(具体是当前，还是前一个)没有了然于胸，关键是自己没有意识到这个问题：这个指针我定义的指向谁？
* 5.head的链表和num数组对应关系是啥？这个我也没有想过
*/
class Solution {
public:
    ListNode* addTwoNumbers(ListNode* l1, ListNode* l2) {
        ListNode* head = NULL;
           
        ListNode* index = new ListNode(0);
        head = index;
        
        ListNode* l1_index = l1;
        ListNode* l2_index = l2;
        
        int num[100000]={0};
        
        for(int i=0; (l1_index!=NULL && l2_index!=NULL) ; i++){
            
            int ans = l1_index->val+l2_index->val;
            index->next = new ListNode(ans%10);
            num[i] = ans>=10?1:0;
            
            l1_index = l1_index->next;
            l2_index = l2_index->next;
            
            index = index->next;
        }
        
        if(l1_index == NULL){
            for(int i=0; l2_index!=NULL; i++){
                index->next = l2_index;
                
                l2_index = l2_index->next;
                index = index->next;
            }
        } 
        else{
            for(int i=0; l1_index!=NULL; i++){
                index->next = l1_index;
                
                l1_index = l1_index->next;
                index = index->next;
            }
        }
        
        //进位
        index = head->next;
        int i = 0;
        for(i=0; index->next!=NULL; i++){
            int ans = index->next->val+num[i];
            
            if(ans < 10){
                index->next->val = ans;
            }
            else{
                index->next->val = ans%10;
                num[i+1]++;
            }
            index = index->next;
        }
        
        //处理最后一位进位的情况
        if(num[i]!=0){
            index->next = new ListNode(num[i]);
        }
        return head->next;
    }
};

集成学习

发表于 2019-04-15 更新于 2020-03-12 分类于 c数据科学/czh_机器学习/knowledge 阅读次数：
本文字数： 221 阅读时长 ≈ 1 分钟

2019年4月15日下午10:06

原文：

这篇文章讲的简明清晰，突出重点。已经非常精炼，每句话都很重要，直达本质，做笔记都挑不出重点！
最最核心的是：

twosigma competition代码构建

发表于 2019-04-15 更新于 2020-03-12 分类于 c数据科学/czh_机器学习/kaggle 阅读次数：
本文字数： 390 阅读时长 ≈ 1 分钟

2019年4月15日下午9:54

这个比赛的代码主要是看：

如何理解代码：

重点：
1. 使用stackNet的输入：已经使用xgboost进行数据的预测结果(这时，当前没有进行stackNet的模型是也是可以做出结果并提交的)
2. 我们进行stackNet的原因：进一步提高预测的准确率(stackNet不是必须的)
主要看两个文件：
1. StackNet/EXAMPLE.MD at master · kaz-Anova/StackNet · GitHub
2. Kaggle 首战拿银总结 | 入门指导 (长文、干货） - 知乎

Kaggle

发表于 2019-04-15 更新于 2020-03-12 分类于 c数据科学/czh_机器学习/kaggle 阅读次数：
本文字数： 250 阅读时长 ≈ 1 分钟

2019年4月15日下午7:34

大神1：

指导+源码：

Kaggle 首战拿银总结 | 入门指导 (长文、干货） - 知乎
 GitHub - ScarletPan/Kaggle-Rental-Listing-Inquireies: Summary of getting a silver medal in kaggle

StackNet

https://github.com/kaz-Anova/StackNet

大神2：

机器学习进阶：我的竞赛之路 - 知乎

大神3：

数据挖掘类竞赛经验总结与分享：人人都可以是赢家 - leavingseason - 博客园

模型融合

发表于 2019-04-15 更新于 2020-03-12 分类于 c数据科学/czh_机器学习/knowledge 阅读次数：
本文字数： 308 阅读时长 ≈ 1 分钟

2019年4月15日下午7:26
Kaggle Ensembling Guide | MLWave

这篇文章讲的内容是模型融合，一共分为了两个部分：
1. For the first part we look at creating ensembles from submission files.
2. The second part will look at creating ensembles through stacked generalization/blending.
第一部分讲解的非常详细，并且有配套的代码GitHub - MLWave/Kaggle-Ensemble-Guide: Code for the Kaggle Ensembling Guide Article on MLWave

理解stack

发表于 2019-04-15 更新于 2020-03-12 分类于 c数据科学/czh_机器学习/knowledge 阅读次数：
本文字数： 140 阅读时长 ≈ 1 分钟

2019年4月15日下午4:43

我理解成框架的框架：
1. 如果说SVM，LSTM，LR这些都算是一个框架的话，并且他们都有各自的超参数
2. 这个stack可以算是这些框架的框架，这个框架以上面的框架为元素，并也有自己的超参数。

Kaggle神器-StackNet - 披着鲨鱼皮的海盗 - CSDN博客