机器学习中的bootstrap到底是什么?
- 前端
- 2023-01-23
bootstrap在字典上的解释
n. (靴筒后的)靴襻,拔靴带;[计] 引导程序,辅助程序;自展
vt. 最小财力创建(网络企业或其他企业);启动(电脑)拔靴带是个什么东东?
哦,原来运动鞋后面那玩意儿还有一个高大上的名字叫bootstrap...
在前端开发中,有一种框架叫bootstrap。
在系统开发中,引导程序也被称为bootstrap。 (靴子带有引导的作用,这个能理解)
在统计学中,有一种统计法叫自助法,它的原名就是bootstrap。看了以上,你的内心OS一定是:这都哪跟哪?靴子带能和统计学有什么关系? 别着急,继续往下看!
Bootstrap的引申含义源自18世纪德国文学家拉斯伯(Rudolf Erich Raspe)的小说《蒙乔森男爵的冒险故事》(The Adventure of Baron Munchausen)国内译作《吹牛大王历险记》。里面记述道:“男爵掉到湖里沉到湖底,在他绝望的时候,他用自己靴子上的带子把自己拉了上来”。虽然这动作不符合牛顿定律,但由此产生一句习语“pull yourself up by your bootstraps”,直译过来就是“通过拉你自己靴子带把你自己从地面上拉起来”。含义为“improve your situation by your own efforts”,即不借助别人的力量,凭自己的努力,终于获得成功。因此,Bootstrap 一词就代表了“自力更生”。所以在创业中的起始阶段也叫做bootstrap。统计学中的自助法也叫bootstrap。
题外话----这篇小说还衍生出一个名词:“孟乔森综合症”,感兴趣的可以去查查看。bootstrap和统计学扯上关系,那还要追溯到发明该统计方法的美国统计学家--布拉德利·埃弗龙(Bradley Efron)。
(Bradley Efron, 1938-05-24 ~)1979年美国斯坦福大学统计系教授Bradley Efron在总结、归纳前人研究成果的基础上提出一种新的非参数统计方法——他将其命名为Bootstrap方法。
1980年魏宗舒教授向国内做了首次介绍并将Bootstrap译作“自助法”。
Bootstrap法充分利用了给定的观测信息,不需要模型其他的假设和增加新的观测,并且具有稳健性和效率高的特点,1980年代以来,随着计算机技术被引入到统计实践中来,此方法越来越受欢迎。
2018年,布拉德利·埃弗龙因首创Bootstrap法,获得了年度国际统计学奖。在统计学中,Bootstrap法具体是指用原样本自身的数据抽样得出新的样本及统计量。它是一类非参数Monte Carlo方法,其实质是对观测信息进行再抽样,进而对总体的分布特性进行统计推断。
用人话来说就是:在现实问题中,对总体进行多次抽样常常是不方便的甚至是无法实施的,所以就只进行一次抽样得到一个样本,再在这个样本中进行多次有放回地抽样,得到多个“样本的样本”,这样通过统计这些小样本的分布,就能得到总体的估计量(例如方差、标准差等)。
机器学习集成算法中的Bagging装袋算法就是基于bootstrap的一种算法,它其实和袋子没有什么关系,这么叫只是为了好听顺口和便于记忆,它的全称是Bootstrap aggregating自助聚合算法。所以看过本篇文章的你在以后再次看到Bagging时,希望你能在头脑中能立刻反应出:Bagging中打头的B代表Bootstrap--自助法,后面的agging代表aggregating--聚合,连起来就是“自助聚合算法”。
没想到吧,为了搞清楚这么一个专业名词,绕了这么一大圈,这也是木有办法,谁让它是老外发明的呢,其实好多知识概念都是从外面引进的,而这些发明者偏偏又喜欢玩梗,所以我们在学习的过程中,如果不想死记硬背浪费脑容量,想充分get这些知识,就不得不跟着把里面的文化背景弄明白,当然这些背景可能对某些人来说“没什么卵用”,但对我来说不失为一种乐趣......