对数正态分布 生活中常见的正态分布

时间:2023-04-30 15:50/span> 作者:tiger 分类: 新知 浏览:7002 评论:0

为什么金融市场总是出现让人意料不到的“黑天鹅”?也许是我们用错了分布假设!

正态分布是金融交易中经常用到的一个统计分布假设。这个分布假设是建立在“中心极限定理”基础上的。该定理的内容是,假设我们从任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的一个钟型的正态分布。

正态分布的特点是大部分数据集中在中间,少部分分散在两边。但是上述结果的实现有一个隐含条件,就是这些抽样结果彼此之间应该是相互独立的。

相互独立的意思,是前一次抽样的结果不应该影响下一次抽样的结果。最具代表性的独立抽样过程就是丢硬币,无论上一次丢硬币的结果是正面还是负面,都不会影响下一次丢硬币的可能性。因此只要丢硬币的结果够多,我们可以看到一个近似正态分布的结果。

在现实生活中,如果不涉及时间序列的某个横截面大样本,我们都可以认为是符合正态分布的“独立”条件的。比如我们测量某日收市的全部A股收盘价,就会发现他们的分布也是基本符合正态分布:大部分股票的价格集中在10-30元附近,小部分位于较低的2-3元或者较高的100元以上范围。

但是,如果我们测量的变量是彼此不独立的话,上述的正态分布就不会成立,而是会变成指数分布或者幂律分布。这两种分布都是一个内凹的月牙形:前半段的变动幅度较高但是样本较少,后半段的变动幅度低但是样本较多。

幂律分布区别于指数分布的特点是它的前后分布更为平均,数值下降速度更为“缓慢”。

现实生活中,但凡和人类活动相关的变量在时间序列上都存在一定的相关性。例如一个股票前一天的上涨往往和后一天的上涨存在很强的相关性。因此,股票的价格变动大致上是符合幂律分布的。

幂律分布的特点,一言概之就是20/80定律。一个股票在一个时间段里面的股价表现,往往是在20%的区间内完成的大涨或者大跌。剩余80%的时间段里面,它往往只是在做随机的横盘整理。

除了股票,幂律分布还广泛地分布在语言使用(20%的单词占据了80%的出现频率),财富分配(20%人群掌握80%财富)以及网络流量(20%网站占有80%点击率)等方面。

幂律分布的存在,使得我们在预测时间序列分布的变量变动时,必须要有更加大的容错区间。这是因为幂律分布的“肥尾”现象更加显著:由于存在变量之间相互影响的情况,导致极端情况更加容易发生。高涨的股价会继续上升,而超跌的股票则继续下跌。

如果我们遵循正态分布的估计来预测,那么95%的股价变动可能集中在均值加减1.64个标准差的范围内。但是因为实际上股价变动是遵循幂律分布的的,95%的股价变动可能要扩展到均值加减2-3个标准差的范围。因此建立在正态分布基础上的均值加减1.64个标准差设定的“标准预测”,实际上可能导致投资者过低卖出或者过高买入,承担了额外的交易风险。

这里面最为讽刺的一个原因,可能就是因为越来越多的人使用了“交易事件彼此间是独立性分布的”这个假设来指导交易,导致不同品种之间的独立性随着交易逻辑的趋同性而消失了!这也解释了,为什么近年来金融市场上会出现越来越多历史上从未发生过的“小概率”事件,例如价格闪崩30%、回购利率飙升10倍等。这是因为如果我们用幂律分布假设来分析波动的话,这些事件本来就属于正常概率的分布范围。导致预测出错的,不是市场,而是使用假设的交易者本身。或者说,出于贪婪而无止境追求利润和忽视风险的,人性。

倒钟型的“正态分布”,也就是趋向中间;和尖刀型的“幂律分布”,也就是趋向极端,统治了绝大多数商业世界的形态。手中有这两张图作为工具,你可以看清很多商业现象,并做出正确的战略决策。

餐饮业是服务业,它和理发一样,“边际交付时间”不为零。什么叫“边际交付时间”?就是我给你做饭时,就不能给他做饭。我每做一顿饭的时间,是刚性的。我做得再好吃,一天最多做3~5顿,服务不过来的客人,只能让给别人。“边际交付时间”越高的行业,越是分散市场,符合正态分布:赚大钱的人少,亏大钱的也少,大部分人都趋向赚取平均利润。

而互联网行业呢?它的“边际交付时间”为零,因为第12课讲的“网络效应”,用户越多,就会彼此正向激励,用户就更多。领先者一旦过了引爆点,就会赢家通吃,产生垄断。这个行业,注定是头部市场,符合幂律分布:不管曾经百团大战、千团大战,最后都会趋向集中在少数几家手中。

什么是正态分布?在商业世界中,正态分布,就是因为“边际交付时间”等等因素导致的,好的少,差的也少,大部分企业趋向中间的一种“倒钟型”分布;

什么叫幂律分布?在商业世界中,幂律分布,就是因为“网络效应”等等因素导致的,强者越强,弱者越弱,大部分企业走向极端的一种“尖刀型”分布。

为什么正态分布这么常见呢?

因为通常情况下,一个事物的影响因素都是多个,比如每个人的身高,受到多个因素的影响,比如:

父母的身高

家里面的饮食习惯,每天吃素还是吃荤(当然喜欢吃肉),每天吃牛肉还是吃猪肉(都喜欢)

每天是否运动(当然),每天做了什么运动(游泳)

等等等的每一个因素,每天的行为,就像刚才抛硬币一样,这些因素要不对身高产生正面影响,要不对身高产生负面影响,最终让整体身高接近正态分布。

[1]正态分布为什么常见?真正原因是中心极限定理(central limit theorem)。根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。

[2]正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。PS:如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布(log normal distribution)

自然界中为何如此多的变量都服从高斯分布?因为每个变量都是由一系列随机变量组成的。例如人的身高由饮食、气候、基因等很多独立随机变量组成,这些独立随机变量就像钉子一样一层一层地摆放,最初人的身高是固定的(就像从中间扔下来的小球),经过这么多随机因素之后人的身高就变成了正态分布。

高斯分布是没有道理的,它就是一种经验分布。

一旦谈及正态分布,我们首先要想到它的两个参数:均数是多少和标准差是几。每次一遇到正态分布就迅速找这两个概念,最好形成条件反射,因为这两个数才是我们日后运用正态分布解决实际问题的“利器”。

  • 均值——样本所有取值的平均
  • 方差——该指标衡量了样本总体偏离均值的程度

如果我们测量的变量是彼此不独立的话,上述的正态分布就不会成立,而是会变成指数分布或者幂律分布。这两种分布都是一个内凹的月牙形:前半段的变动幅度较高但是样本较少,后半段的变动幅度低但是样本较多。

最后再来点概念和公式:

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)

最早由棣莫弗(Abraham de Moivre)在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。

正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。

有68.2%数值位于平均值1个标准差的范围之内

有95.4%的数值位于2个标准差的范围以内

还有99.7%的数值位于3个标准差的范围以内

正态分布的公式

总结:

我们生活中的两种模式,就遵循了正态分布和幂律分布。

如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布;

反之,这些因素是彼此独立互不影响的,就遵循正态分布,比如一些群体的身高、体重等。

引用文献:

(1)正态分布与幂律分布

http://www.pianshen.com/origin/article/99011008447/

(2)十大战略工具(6)—— 正态分布&幂律分布

http://blog.csdn.net/qq_37492806/article/details/107362709

(3)百度百科

http://baike.baiduu.com/origin/item/%E6%AD%A3%E6%80%81%E5%88%86%E5%B8%83/829892?fr=aladdin

文章评论