上周的笔记,白话机器学习 中提到了A/B test 和epsilon 递减策略, 这是关于选择的策略,
三种关于选择的策略
假设我们手上有两个方案,但不知道哪个会更好(能是我们利益最大化),这时候出现了三个策略
- 上帝视角策略
这是一种理想化的情况,在开始选择之前我们就已经知道了最优的路径,这时候甚至不用再探索了,直接朝着最优路径前进.
这种思维最近出现在我看的一本科幻小说降临,那是七肢桶拥有的技能
- A/B test: 先尝试,根据结果决策.这是最常见的A/Btest.
A/B test 有两个步骤:
探索: 我们把每一个方案都执行一次或者若干次,借此观察执行的效果
利用: 利用探索的结果,我们会得出一个方案上的偏好.
- epsilon 递减策略
通用版的A/B test 的特点就是: 它是”单向” 且”一次性的”. 在无限游戏里面,这种一次性的决策是不具备灵活性的.
epsilon 递减策略则是 “阶段性的, 有保留性的”, 它会不断进行 探索– 利用– 再探索 这个过程.当下的正确的选择都会在未来得到更多的奖赏.这个策略的关键在于你怎么划分你的决策阶段.
人生当如A/B test
所谓上帝视角,可能就是: 活得足够长,经历的足够多,在每一个选择面前他都已经经历过类似使得他拥有路径优化的能力.我们现在的社会上,这种上帝视角表现形式就是:知识.通过各种媒介我们可以享用前人各种探索留下来的经验.这是社会能存在的基础.
当把眼光放在个体的时候,我们会发现我们的人生是没有上帝视角的.即使有,可能你也不愿意相信.而且,生活是不断持续的过程,也就是说,我们不会只选择一次就完事, 不是有一句话这样说的么: 我们是由一系列的选择造就的.
当我常常会陷入一种迷惑: 我怎么知道我现在,当下的做法是对的? 沃伦·巴菲特最为人知的是他的长期视角, 我一度认为他内心要极度变态才能在股市中做到”不动”.
举个例子,我怎么知道 字节跳动创始人张一鸣 推崇的延迟满足感 是一个真的有效的策略?而 epsilon 递减策略 会告诉你: 那就分阶段性验证看看.要是它真的有效,那我一定能收到它的正向反馈.
从长久来看,我们都是要死的, 你不能指望我们把年轻时候的性生活储藏起来等到老的时候才用.
epsilon 递减策略的关键: 阶段划分
这种阶段的划分,是可以映射到我们人生的.
在20岁之前,大部分人是处于原始材料的积累状态(你的家庭怎么样,你会养成什么样的性格,你的学习状态是怎么样的). 这时候的时间对你来说是缓慢的.
在你远离家乡的时候,这里无意地触发你的第一次A/Btest: 你开始在探索了,可能是外出求学,可能是外出打工.这时候时间开始加速.这样是实验的最佳时期,我们的成长速度,容错能力都是在加强的.直到中年的后期,大概是40岁.40岁之后,那时候你考虑的东西会更多了,对于你来说,探索一种可能性会花费更长的时间.时间在这时候开始缓慢了下来.
从20岁到40岁,大概20年的时间.
要是以七年为一个阶段,我们可以实验3个完整的A/Btest .
而每隔七年左右,我们都可以停下来,观察一下前面的进展,做一个总结.
例如我的人生阶段是这样的:
大学之前: 那是人生的前20年,小学,初中,高中都在自己的家乡,那是一段”自我意识”强烈却”自我选择”无能的时光.
大学四年: 大学开始了,探索时期.
工作三年: 利用期. 大学的专业和毕业后至今的就业具有衔接性.这是一件好事.
今年是工作的第四个年头,这也标志着我已经走完了人生的第一个 A/B test . 我的探索阶段性结论是,我在这个行业真的很幸运,我也很高兴并愿意一直呆在这个行业,即使有一天不以它作为自己谋生的工具.计算机是Tool,也可以是Toy.唯一觉得不满的是,在第一个A/Btest里面,7年的时间有4年我是在探索期(虽然大学四年我也没办法提前终止).但这也是 epsilon 递减策略 的关键,第一次探索,多花点时间总是好事.后面可以慢慢递减.下一个七年,或许我可以不用花那么多时间在探索上了.
在一个行业工作了4年,其实也是一个很好的时候来思考自己的职业. 例如前段时间计算机行业的 996ICU事件,我觉得也是一种提示: 你有多久没尝试探索新的东西了?
其他
这篇文章修修改改, 本来是想单纯讲策略的,但又觉得它可以知道人生的选择.所以你会觉得这篇文章有点别扭,到底是在讲理论知识还是在讲鸡汤,还好像两个都没有讲好(囧….).
但核心还是在的: Test. 人生不要一下子就给一个定论,我要在这个职位上鞠躬尽瘁,我天生就是干这个的. 我们是有时间,同时也有理论指导,通过尝试来时的我们人生,或许达到一个局部最优的状态.
祝我在人生的第二个A/Btest , good dog luck.