油价预测模型代码-油价调价预测

数据挖掘核心算法之一--回归

回归,是一个广义的概念,包含的基本概念是用一群变量预测另一个变量的方法,白话就是根据几件事情的相关程度,用其中几件来预测另一件事情发生的概率,最简单的即线性二变量问题(即简单线性),例如下午我老婆要买个包,我没买,那结果就是我肯定没有晚饭吃;复杂一点就是多变量(即多元线性,这里有一点要注意的,因为我最早以前犯过这个错误,就是认为预测变量越多越好,做模型的时候总希望选取几十个指标来预测,但是要知道,一方面,每增加一个变量,就相当于在这个变量上增加了误差,变相的扩大了整体误差,尤其当自变量选择不当的时候,影响更大,另一个方面,当选择的俩个自变量本身就是高度相关而不独立的时候,俩个指标相当于对结果造成了双倍的影响),还是上面那个例子,如果我丈母娘来了,那我老婆就有很大概率做饭;如果在加一个事件,如果我老丈人也来了,那我老婆肯定会做饭;为什么会有这些判断,因为这些都是以前多次发生的,所以我可以根据这几件事情来预测我老婆会不会做晚饭。

大数据时代的问题当然不能让你用肉眼看出来,不然要海量计算有啥用,所以除了上面那俩种回归,我们经常用的还有多项式回归,即模型的关系是n阶多项式;逻辑回归(类似方法包括决策树),即结果是分类变量的预测;泊松回归,即结果变量代表了频数;非线性回归、时间序列回归、自回归等等,太多了,这里主要讲几种常用的,好解释的(所有的模型我们都要注意一个问题,就是要好解释,不管是参数选择还是变量选择还是结果,因为模型建好了最终用的是业务人员,看结果的是老板,你要给他们解释,如果你说结果就是这样,我也不知道问什么,那升职加薪基本无望了),例如你发现日照时间和某地葡萄销量有正比关系,那你可能还要解释为什么有正比关系,进一步统计发现日照时间和葡萄的含糖量是相关的,即日照时间长葡萄好吃,另外日照时间和产量有关,日照时间长,产量大,价格自然低,结果是又便宜又好吃的葡萄销量肯定大。再举一个例子,某石油产地的咖啡销量增大,国际油价的就会下跌,这俩者有关系,你除了要告诉领导这俩者有关系,你还要去寻找为什么有关系,咖啡是提升工人精力的主要饮料,咖啡销量变大,跟踪发现工人的工作强度变大,石油运输出口增多,油价下跌和咖啡销量的关系就出来了(单纯的例子,不要多想,参考了一个根据遥感信息获取船舶信息来预测粮食价格的真实案例,感觉不够典型,就换一个,实际油价是人为操控地)。

回归利器--最小二乘法,牛逼数学家高斯用的(另一个法国数学家说自己先创立的,不过没办法,谁让高斯出名呢),这个方法主要就是根据样本数据,找到样本和预测的关系,使得预测和真实值之间的误差和最小;和我上面举的老婆做晚饭的例子类似,不过我那个例子在不确定的方面只说了大概率,但是到底多大概率,就是用最小二乘法把这个关系式写出来的,这里不讲最小二乘法和公式了,使用工具就可以了,基本所有的数据分析工具都提供了这个方法的函数,主要给大家讲一下之前的一个误区,最小二乘法在任何情况下都可以算出来一个等式,因为这个方法只是使误差和最小,所以哪怕是天大的误差,他只要是误差和里面最小的,就是该方法的结果,写到这里大家应该知道我要说什么了,就算自变量和因变量完全没有关系,该方法都会算出来一个结果,所以主要给大家讲一下最小二乘法对数据集的要求:

1、正态性:对于固定的自变量,因变量呈正态性,意思是对于同一个答案,大部分原因是集中的;做回归模型,用的就是大量的Y~X映射样本来回归,如果引起Y的样本很凌乱,那就无法回归

2、独立性:每个样本的Y都是相互独立的,这个很好理解,答案和答案之间不能有联系,就像掷硬币一样,如果第一次是反面,让你预测抛两次有反面的概率,那结果就没必要预测了

3、线性:就是X和Y是相关的,其实世间万物都是相关的,蝴蝶和龙卷风(还是海啸来着)都是有关的嘛,只是直接相关还是间接相关的关系,这里的相关是指自变量和因变量直接相关

4、同方差性:因变量的方差不随自变量的水平不同而变化。方差我在描述性统计量分析里面写过,表示的数据集的变异性,所以这里的要求就是结果的变异性是不变的,举例,脑袋轴了,想不出例子,画个图来说明。(我们希望每一个自变量对应的结果都是在一个尽量小的范围)

我们用回归方法建模,要尽量消除上述几点的影响,下面具体讲一下简单回归的流程(其他的其实都类似,能把这个讲清楚了,其他的也差不多):

first,找指标,找你要预测变量的相关指标(第一步应该是找你要预测什么变量,这个话题有点大,涉及你的业务目标,老板的目的,达到该目的最关键的业务指标等等,我们后续的话题在聊,这里先把方法讲清楚),找相关指标,标准做法是业务专家出一些指标,我们在测试这些指标哪些相关性高,但是我经历的大部分公司业务人员在建模初期是不靠谱的(真的不靠谱,没思路,没想法,没意见),所以我的做法是将该业务目的所有相关的指标都拿到(有时候上百个),然后跑一个相关性分析,在来个主成分分析,就过滤的差不多了,然后给业务专家看,这时候他们就有思路了(先要有东西激活他们),会给一些你想不到的指标。预测变量是最重要的,直接关系到你的结果和产出,所以这是一个多轮优化的过程。

第二,找数据,这个就不多说了,要么按照时间轴找(我认为比较好的方式,大部分是有规律的),要么按照横切面的方式,这个就意味横切面的不同点可能波动较大,要小心一点;同时对数据的基本处理要有,包括对极值的处理以及空值的处理。

第三, 建立回归模型,这步是最简单的,所有的挖掘工具都提供了各种回归方法,你的任务就是把前面准备的东西告诉计算机就可以了。

第四,检验和修改,我们用工具计算好的模型,都有各种假设检验的系数,你可以马上看到你这个模型的好坏,同时去修改和优化,这里主要就是涉及到一个查准率,表示预测的部分里面,真正正确的所占比例;另一个是查全率,表示了全部真正正确的例子,被预测到的概率;查准率和查全率一般情况下成反比,所以我们要找一个平衡点。

第五,解释,使用,这个就是见证奇迹的时刻了,见证前一般有很久时间,这个时间就是你给老板或者客户解释的时间了,解释为啥有这些变量,解释为啥我们选择这个平衡点(是因为业务力量不足还是其他的),为啥做了这么久出的东西这么差(这个就尴尬了)等等。

回归就先和大家聊这么多,下一轮给大家聊聊主成分分析和相关性分析的研究,然后在聊聊数据挖掘另一个利器--聚类。

国际油价波动分析与预测的目录

为了研究国际石油价格在大幅度波动中潜藏的极端市场风险,本节的样本取自1987年5月20日到2006年8月1日的WTI和Brent市场原油现货价格日数据,单位是美元/桶。数据来自于美国能源部能源情报署(EIA)。考虑到油价序列具有典型的非线性特征(图4.19),因此,我们使用相邻日价格数据的几何平均值插补价格序列中缺失的数据,共获得4944个样本。其中,从1987年5月20日到2005年7月29日为样本内数据,共4684个数据,用于数学建模;而2005年8月1日到2006年8月1日为样本外数据,共260个数据,用于检验模型的预测能力。

图4.19 WTI与Brent市场原油现货价格走势(1987-5-20~2006-8-1)

(据EIA)

胜利油区经济产量计算方法

总序

序言

第一部分 国际油价波动分析

第一章 全球石油市场信息溢出研究

1.1 引言

1.2 信息溢出检验文献综述

1.3 实证研究

1.4 本章小结

1.5 参考文献

第二章 国际油价短期波动研究

2.1 引言

2.2 以前的相关研究

2.3 实证数据和方法

2.4 实证结果

2.5 本章小结

2.6 参考文献

第三章 基于粗糙集和小波神经网络的油价影响因素分析

3.1 引言

3.2 基于粗糙集和小波神经网络的混合方法

3.3 混合方法的应用

3.4 本章小结

3.5 参考文献

第四章 国际油价影响因素的综合分析

4.1 引言

4.2 影响原油供给的因素

4.3 影响原油需求的因素

4.4 影响原油价格的短期因素

4.5 本章小结

4.6 参考文献

第五章 突发事件对油价的影响分析

5.1 引言

5.2 突发事件类型

5.3 油价波动特点

5.4 案例分析:突发事件对油价的影响

5.5 本章小结

第六章 基于经验模态分解的国际原油价格波动分析

6.1 引言

6.2 经验模态分解

6.3 分解

6.4 合成

6.5 本章小结

6.6 参考文献

第七章 基于LSI的文本聚类在影响油价事件分类中的应用

7.1 引言

7.2 文本预处理

7.3 基于LSI的文本聚类

7.4 聚类结果分析

7.5 本章小结

7.6 参考文献

第二部分 国际油价预测

第八章 动态因子方法预测原油价格

8.1 引言

8.2 动态因子方法

8.3 数据

8.4 回归和预测结果

8.5 本章小结

8.6 参考文献

第九章 基于基金持仓的国际原油期货价格预测

9.1 引言

9.2 影响国际原油期货市场的因素分析

9.3 国际原油期货价格预测

9.4 本章小结

9.5 参考文献

第十章 小波变换在油价分析预测中的应用

10.1 引言

10.2 小波变换

10.3 基于小波变换的油价序列多尺度分解

10.4 基于多尺度分解的油价预测

10.5 本章小结

10.6 参考文献

第十一章 基于小波神经网络的油价预测

11.1 引言

11.2 小波神经网络介绍

11.3 实证分析

11.4 本章小结

11.5 参考文献

第十二章 基于供求理论的石油季度价格预测

12.1 石油价格影响机制简介

12.2 石油季度价格影响因素分析

12.3 石油季度价格预测模型的建立

12.4 本章小结

12.5 参考文献

第十三章 勘探开发与国际石油供求间关系分析

13.1 引言

13.2 石油供给的影响因素分析与情景预测

13.3 石油需求的影响因素分析与情景预测

13.4 本章小结

13.5 参考文献

第十四章 基于VARX与VECM模型的年度国际原油价格预测

14.1 引言

14.2 模型理论与方法

14.3 变量选取与数据说明

14.4 模型预测与结论

14.5 本章小结

14.6 参考文献

附录一 国际油价预测系列报告(摘选)

附录二 报刊文章和观点精选

实证结果分析与讨论

苏映宏 尚明忠 王兴科 赵小军 侯春华

摘要 从油田开发的基本规律和目前的开发经济效益状况出发,运用油藏工程的基本原理和经济学的基本原理,建立了新井经济极限初产油量、老井经济极限含水量和经济极限产油量的计算模型。在此基础上,研究了油田非经济产量的变化规律,并应用此规律预测了未来一定时期油田非经济产量百分比及油田的年度经济产量。该方法的研究与应用对提高油田开发经济效益具有重要意义。

关键词 经济产量 效益产量 低效产量 低效井 经济极限含水量

一、引言

在市场经济条件下,企业追求经济效益的重要特征之一就是力争使利润最大化和合理化。石油企业追求利润最大化的基本形式应该是最经济地开发出全部的可采储量,或者说使可采储量的开发利润最大化。因此,油田开发应尽可能避免不经济的成分存在。

从胜利油区近几年的生产情况看,平均单井日产油小于1t的井数从1992年的417口井上升到1999年的1222口,井数比例由4.4%上升到10.3%,井数及其比例均成倍上升。这些井中必然有部分处于低效状态下生产,因此,分析低效井及其产量的变化规律对提高油田的开发经济效益具有重要的意义。

国内外经济产量的研究方法比较复杂,所需预测的参数较多,实际操作困难[1]。为适应市场经济的需要,同时也为提高油田开发经济效益,有必要研究一种合理的、易于操作的经济产量计算方法。

二、经济产量计算模型

油田年度经济产油量定义为在经济开发期内能够获得利润的年产油量。在商品经济的条件下,一个油田年度经济产油量的高低和油价及成本水平密切相关,油价提高、成本降低将有利于经济产油量的提高;反之,油价下跌、成本上涨,将导致经济产油量的降低。因此,研究油田经济产油量的问题,其实质是在研究油田产油量客观变化规律(油藏内在的)的基础上,深入研究油价、成本的变动对经济产油量的影响,并建立起相关的数学模型,预测油田未来时期经济产油量的变化。

从平均的、客观的角度来讲,对于一个油田,只要目前的平均吨油成本低于税后油价,油田经营就可以获得利润。油田的年度产油量也可以说是经济产油量,定义为年度宏观经济产油量。但油田总体上的获利状况并不等于油田中的每口油井的产油量都是经济的。事实上,在油田年度宏观经济产油量中,往往包括一些低产低效井的非经济产油量。因此,对于一个油田,年度经济产油量的预测应该是在油田年度宏观经济产油量预测的基础上,剔除其中低产低效油井的非经济产油量,计算模型如下:

胜利油区勘探开发论文集

式中:Qi——已开发油田年度经济产油量,104t;

Qh——油田年度宏观经济产油量,104t;

Qe——油田年度低效产油量,104t;

e——低效产量百分数,%。

三、年度宏观经济产油量预测方法

年度宏观经济产油量就是在经济可采期内的年产油量。经济可采储量及剩余经济可采储量可以由水驱系列法结合经济极限含水量求得。

胜利油区勘探开发论文集

式中:Npj——剩余经济可采储量,104t;

Npo——累积产油量,104t;

a、b——水驱系列甲型水驱曲线系数;

fw,min——经济极限含水,小数(本文后面有推导);

CL——吨液成本,元/t;

P——原油价格,元/t;

Rt——吨油税金,元/t;

W——原油商品率,小数;

qL——平均单井产液量,t/d。

年产油量预测通常采用Arps递减法。Arps递减曲线的3种类型中[2],双曲递减方程是通式,而指数递减和调和递减方程可以认为是双曲递减方程分别在递减指数n→∞和n=1时的两种特例。因此,可以通过最佳拟合计算双曲递减方程递减指数n,来判断递减类型。

由双曲递减方程

胜利油区勘探开发论文集

可得

胜利油区勘探开发论文集

再改写为

胜利油区勘探开发论文集

式中:Qt——递减t时间的产量,104t;

Qi——初始递减时的产量,104t;

Di——初始递减率,小数;

n——递减指数,小数;

t——以选定的递减起点为零点计算的时间,a。

A=lg(QiCn);

B=n;

C=n/Di。

首先作lgQt-lg(t+C)曲线,改变 C值,使所选规律段数据的直线回归相关系数最大;由最佳直线拟合斜率值,即可求出递减指数 n。n→∞,为指数递减;1<n<∞,为双曲递减;n=1,为调和递减。

当递减阶段的累计产油量在剩余经济可采储量范围之内时,就可求得递减阶段任一时刻的年度宏观经济产油量。

Arps递减法并不是预测油田年度宏观经济产量的惟一方法。在实际工作中,往往根据油田具体情况筛选出一些适用于本油田的产量变化规律的预测方法

尚明忠等.油田开发趋势预测技术研究.1997.

,比如定液求产法、产量构成法、灰色模型法、AR模型等。

四、年度经济产量计算

1.油井生产成本与费用分析

油井生产成本与费用是油气田企业在生产经营活动中按规定发生的一切消耗和费用的总和。包括油气产品开采成本、勘探费用、管理费用、销售费用和财务费用,后三项费用为油气勘探开采过程发生的费用,不计入油气产品开采成本,而当作损益直接从销售收入中扣除。在成本分析中,根据新、老井的具体情况将成本分为最低成本和完全成本两类。其中,最低成本是指在油井生产过程中发生的,只与本井产油量紧密相关的最低费用,主要是动力费、材料费、油气处理费、驱油物注入费;完全成本除了包括简单再生产的成本以外,还包括扩大再生产的成本,如油水井的更新、补充、滚动勘探开发、寻找新储量、增加新产能等。

从分析低效井的角度来看,老井的投资已经收回,只要油井能正常生产,并且所产油的税后产值能大于油井的最低成本,就表示该油井的生产有效。因此,判断老井是否低效采用油井开采的最低成本计算;对新井的判断采用完全成本计算。

2.低效井判别模型的建立

(1)新井低效井判别模型

新井低效井判别模型就是新井经济极限初产油量计算模型。新井经济极限初产油量是指在一定的技术、经济条件下,当油井在投资回收期内的累积产值等于同期总投资、累积年经营费用和必要的税金之和时,该井所对应的初期产油量称为油井的经济极限初产油量。为提高油田整体效益,必须尽量避免新井的产量低于经济极限初产油量。

在投资回收期内,单井经济效益[3]:

胜利油区勘探开发论文集

当在投资回收期内累计经济效益为0时,即Pp=0时,得出经济极限初产油量的计算公式:

胜利油区勘探开发论文集

式中:Pp——单井经济效益,104元;Cm——每米钻井投资,元/m;

Sp——单井产值,104元;H——平均井深,m;

K——投资,104元;Ib——单井地面建设投资,104元/井;

CD——经营成本,104元;β——油水井系数,小数;

τo——油井开井时率,小数;Co——单井年操作费成本,104元/井;

T——投资回收期,a;i——操作费年上涨率,小数;

qo——油井平均单井初产油量,t/d;qmin——经济极限初产油量,t/d。

B——平均年综合递减余率,小数;

图1 胜利油区吨液成本与平均单井日产液量的关系图

(2)老井低效井判别模型

老井低效井判别模型采用经济极限含水量的计算模型。经济极限含水量是指油田(油井)开发到一定的阶段,其含水量上升到某一数值或产油量下降到某一数值时,投入与产出相抵,含水量如再升高、产油量如再下降,油田开发就没有利润了,油田(油井)此时的含水量称为经济极限含水量,此含水量相对应的产量称为经济极限产量。老井经济极限含水量及经济极限产油量的计算与新井经济极限初产油量的计算都是采用盈亏平衡原理,但不同的是,新井经济极限初产油量的计算是指一定阶段(投资回收期)的投入产出平衡,而老井经济极限含水量及经济极限产油量的计算是指瞬时(一般取一年)的投入产出平衡。

吨液成本是原油开采过程中成本的一种表现形式。在研究老井的成本变化规律时,通过研究胜利油区40多个油田的成本,发现吨液成本

方开璞.已开发油田储量资产化新方法研究.1998.

与平均单井产液量有较好的关系(图1)。

其回归关系式为:

胜利油区勘探开发论文集

单井经济效益:

胜利油区勘探开发论文集

当经济效益为0时,得出经济极限含水量的计算公式:

胜利油区勘探开发论文集

将吨液成本与单井产液量的关系式代入可得

胜利油区勘探开发论文集

3.低效产量计算与预测

根据新、老井的低效井判别模型分别对胜利油区1994年以来的井进行了跟踪,得出不同时期、不同油价下低效产量与当年产量的百分比。统计表明,平均单井年产油与时间、平均单井年产油与低效产量百分数有很好的相关关系(图2、图3)。

图2 平均单井年产油量随时间变化曲线图

图3 低效产量百分数与平均单井年产油量关系曲线图

平均单井年产油Y与时间X的关系式为:

胜利油区勘探开发论文集

相关系数为0.9963。

X=1为1994年。根据该关系式可以预测今后某年的平均单井年产油量。

以油价为15美元/桶为例,平均单井年产油量Y与低效产量百分数X的关系式为:

胜利油区勘探开发论文集

相关系数为0.9967。

在预测平均单井年产油量的基础上,根据平均单井年产油量与低效产量百分数的关系式,可以预测出2000年后某年不同油价下低效产量百分数(表1)。

4.年度经济产量计算

由式(7)计算出年度宏观经济产量;联立式(14)和(15)计算出不同油价下的低效产量百分数;联立式(1)和(2)计算年度宏观经济产油量。表2为胜利油区“十五”期间不同油价下的经济产量计算结果。

表1 不同油价下平均单井年产油与低效产量百分数预测结果表

表2 胜利油区不同油价下经济产量计算结果表

五、结论

本文提出和实现了油田经济产量计算的研究思路和方法。在合理分析成本的基础上,通过引入吨液成本的概念,简化了成本的分析过程,使长期以来计算经济政策界限的成本问题得到了比较好的解决。研究了吨液最低成本与平均单井产液量的内在规律,建立了低效井的判别模型,计算了低效产量百分数,统计并分析平均单井年产油与时间的函数关系以及低效产量百分数与平均单井年产油的函数关系。同时,预测了今后几年的低效产量百分数,最终计算了经济产量。

致谢 研究中得到了开发管理部方开璞总地质师、地质科学研究院凡哲元高级工程师和杨勇工程师的支持和帮助,在此一并致谢。

主要参考文献

[1]李良.经济产量.东营:石油大学出版社,1997.

[2]郎兆新.油藏工程基础.东营:石油大学出版社,1991.

[3]刘清志.石油技术经济学.东营:石油大学出版社,1998.

国际石油市场风险度量及其溢出效应检验方法

4.4.3.1 WTI和Brent市场收益率的统计特征

令WTI和Brent市场第t日的石油价格分别为P1,t和P2,t,则WTI和Brent市场第t日的对数收益率分别为Y1,t=ln(P1,t/P1,t-1)和Y2,t=ln(P2,t/P2,t-1),从而各得到4943个收益率样本。图4.20是两个市场所有样本收益率的走势图,不难发现,两个收益率序列均存在明显的波动集聚性。

图4.20 WTI和Brent市场原油现货收益率走势

WTI和Brent两个市场样本内收益率的基本统计特征如表4.17所示。总体而言,两个市场的收益率的平均水平和波动水平都非常接近,这也可以从图4.20上得到印证。同时,与标准正态分布的偏度为0、峰度为3相比,本节两个市场收益率的偏度为负(即呈现左偏现象),峰度远大于3,因此它们均具有尖峰厚尾的特征,而且从JB检验的结果也能看到收益率序列显著不服从正态分布。而对收益率序列进行自相关性LB 检验时,根据样本容量,选择滞后阶数为 ,检验结果表明它们均具有显著的自相关性。另外,通过AD F单位根检验,发现它们都是平稳序列。

表4.17 WTI和Brent市场收益率的基本统计特征

4.4.3.2 WTI和Brent市场收益率的GARCH模型估计

(1)WTI市场收益率的GARCH模型估计

为了滤掉收益率序列的自相关性,本节引入ARMA模型对收益率序列建模。根据自相关和偏自相关函数的截尾情况,并按照AIC值最小原则,经过多次尝试,发现ARMA(1,1)模型比较合适。对ARMA(1,1)模型的残差序列进行自相关性Ljung-Box检验,从自相关分析图上看到,残差序列的自相关系数都落入了随机区间,自相关系数的绝对值都小于0.1,与0没有明显差异,表明该残差序列是纯随机的,换言之,ARMA(1,1)模型很好地拟合了原有收益率序列。

鉴于WTI市场收益率序列存在明显的波动集聚性,因此,本节对ARMA(1,1)模型的残差进行ARCH效应检验,结果发现存在高阶ARCH效应,因此考虑采用GARCH模型。由于收益率序列存在厚尾现象,因此本节在GARCH 模型中引入GED 分布来描述模型的残差。根据AIC 值最小的原则以及模型系数要显著和不能为负的要求,通过比较GARCH(1,1),GARCH(1,2),GARCH(2,1)和GARCH(2,2)模型,本节选择GARCH(1,1)模型来拟合原有收益率序列。

为了进一步研究WTI收益率序列的波动特征,本节检验了TGARCH(1,1)和GARCH-M(1,1)模型。结果发现,收益率序列存在显著的TGARCH效应和GARCH-M 效应,即收益率的波动不但具有显著的不对称特征,而且还受到预期风险的显著影响。考虑到模型的AIC值要最小,以及为了描述收益率波动的不对称性,本节选择TGARCH(1,1)模型对WTI市场收益率的波动集聚性建模,模型形式如式4.16。另外,我们看到模型的GED分布参数为1.260823,小于2,从而验证了该收益率序列的尾部比正态分布要厚的特征,也为本节接下来进一步准确计算WTI市场的风险铺垫了良好的基础。

WTI市场收益率的TGARCH(1,1)模型为

国外油气与矿产资源利用风险评价与决策支持技术

式中:ε1,t-1﹤0,d1,t-1=1;否则,d1,t-1=0;

Log likelihood=11474.52,AIC=-4.898557,GED参数=1.260823

从模型的方差方程看到,油价收益率下跌时, 对h1,t的影响程度为α1+Ψ,即0.057202;而油价上涨时,该影响程度为α1,即0.083559,约为前者的1.5倍。h1,t-1前的系数为0.920539,接近1,表明当前方差冲击的92.0539%在下一期仍然存在,因此波动冲击衰减速度较慢,波动集聚现象比较严重。而检验TGARCH(1,1)模型的残差时发现,其自相关函数都在随机区间内,取阶数为68时,残差的Q统计量的显著性概率大于20%,而Q2统计量的显著性概率大于30%,因此经TGARCH(1,1)建模后的序列不再存在自相关现象和波动集聚性。另外,残差的ARCH-LM检验结果也表明,它不再存在波动集聚性,因此TGARCH(1,1)模型对WTI市场收益率序列的拟合效果较好。

(2)Brent市场收益率的GARCH模型估计

基于Brent市场收益率的波动特征,按照与WTI市场GARCH 模型类似的建模思路,建立了MA(1)模型。而利用ARCH-LM检验方法发现模型的残差存在显著的高阶ARCH效应,因此采用基于GED分布的GARCH模型。比较GARCH(1,1),GARCH(1,2),GARCH(2,1)和GARCH(2,2)模型的AIC值,以及有关系数的显著性,发现选择GARCH(1,1)模型是最合适的,具体形式如(式4.17)。进一步,对收益率序列建立TGARCH(1,1)模型和GARCH-M(1,1)模型,结果表明,有关系数并不显著,因此说明Brent市场收益率的波动并不存在显著的不对称杠杆效应,也不存在显著的GARCH-M效应。而且,我们也发现GED分布的参数小于2,因此验证了Brent市场收益率同样具有厚尾特征。

Brent市场收益率的GARCH(1,1)模型为

国外油气与矿产资源利用风险评价与决策支持技术

Log likelihood=11697.19,AIC=-4.993462,GED参数=1.324630

在模型的方差方程中,h2,t-1前的系数为0.912673,表示当前方差冲击的91.2673%在下一期仍然存在。可见,与WTI市场类似,Brent市场同样存在波动冲击衰减速度较慢的现象。检验模型的残差,发现其自相关函数都在随机区间内,取阶数为68时,标准残差的Q统计量的显著性概率大于50%,而Q2统计量的显著性概率大于20%,因此经GARCH(1,1)建模后的序列不再存在自相关现象和波动集聚性。另外,残差的ARCH-LM检验结果也表明,它不再存在波动集聚性,因此GARCH(1,1)模型对Brent市场收益率序列的拟合效果也较好。

图4.21给出了两个市场的条件异方差的走势,分别代表着它们的波动水平。从图中看到,一方面,两个市场收益率的波动水平基本相当,只是在某些区间WTI市场的波动会更大一些。当然,在海湾战争期间,Brent市场的波动程度相比而言更剧烈一点;另一方面,两个市场都存在一个明显的现象,那就是在波动比较剧烈的时期,其条件方差最高可达一般水平的20倍以上,这种波动的大规模震荡不但说明了国际石油市场存在显著的极端风险,而且对于市场波动和风险的预测具有重要的现实意义。

图4.21 WTI和Brent市场的条件异方差比较

4.4.3.3 WTI和Brent市场收益率的VaR模型估计和检验

正如前文所述,石油市场需要同时度量收益率下跌和上涨的风险,从而为石油生产者和采购者提供决策支持。为此,本节将采用上述基于GED分布的TGARCH(1,1)模型和GARCH(1,1)模型,按照方差-协方差方法来分别度量WTI和Brent市场在收益率上涨和下跌时的VaR 风险值。

(1)GED分布的分位数确定

根据GED分布的概率密度函数,使用MATLAB编程,经过多次数值测算,求出GED分布在本节所得自由度下的分位数,如表4.18所示。表中结果显示,95%的分位数与正态分布的1.645基本相同;但99%的分位数却明显大于正态分布的2.326,这也表明了国际油价收益率具有严重的厚尾特征。

表4.18 WTI和Brent市场收益率的GED分布参数及分位数

(2)基于GED-GARCH模型的VaR风险值计算

根据VaR风险的定义,我们得到以下两个计算VaR风险的公式。其中上涨风险的VaR值计算公式为

国外油气与矿产资源利用风险评价与决策支持技术

式中;zm,α﹥0,表示第m个市场中(T)GARCH(1,1)模型的残差所服从的GED分布的分位数;hm,t为第m个市场的收益率的异方差。

同理,得到下跌风险的VaR值计算公式为

国外油气与矿产资源利用风险评价与决策支持技术

根据上述两个VaR风险计算公式,本节计算了在95%和99%的置信度下,WTI和Brent市场的上涨风险和下跌风险(表4.19,表4.20)。

表4.19 WTI市场收益率的VaR计算结果

表4.20 Brent市场收益率的VaR计算结果

从表4.19和表4.20的实证结果看到,第一,除95%的置信度下市场收益率上涨风险的LR值略大于临界值外,其他所有LR统计量的值均小于相应的临界值,因此按照Kupiec的返回检验方法,可以认为基于GED分布的TGARCH模型和GARCH模型基本上能够充分估计出两个市场收益率的VaR风险值。从市场收益率与VaR风险值的走势也可以看到这一点(图4.22)。第二,在99%的置信度下,两个市场的VaR 模型对收益率的上涨风险比对收益率的下跌风险的估计精度都更高,这可能是由于收益率分布的左尾比较长,GED分布尚未完全捕捉到所有的厚尾现象。而在95%的置信度下,对下跌风险的估计精度更高。第三,从VaR的均值来看,在相同的置信度下,不管收益率是上涨还是下跌,WTI市场的VaR值都要比Brent市场对应的VaR 风险值大,因此需要更多的风险准备金。当然,从图4.23的VaR 风险走势可以发现,事实上,两个市场的VaR风险基本上相差不大,只是在某些样本区间内,WTI市场的风险会超过Brent市场。

图4.22 99%的置信度下Brent市场的收益率及其VaR风险值

图4.23 99%的置信度下WTI和Brent市场收益率上涨和下跌时的VaR风险值

(3)VaR模型比较

在采用GARCH模型计算市场收益率的VaR 风险值时,一般都假设模型的残差服从正态分布,从而直接令zm,α等于标准正态分布的分位数。但实际上,石油市场的收益率及其模型残差一般都是非正态分布的,因此得到的VaR 模型往往不够充分。为此,本节以99%的置信度为例,建立了基于正态分布分位数的VaR 模型,计算结果如表4.21所示,并与表4.19和表4.20中VaR模型的有关结果进行比较。

表4.21 基于正态分布分位数的VaR模型计算结果

结果表明,从VaR均值上看,基于正态分布的VaR模型在两个市场、两个方向(即上涨和下跌)上计算得到的VaR风险值均比基于GED分布的VaR 模型的相应结果要靠近零点,这从模型失效次数的比较上也能得到验证。再者,由于表4.21中的失效次数均超过了99%的置信度下临界处的失效次数(约为47),因此此时的计算结果低估了市场的实际风险。

而按照Kupiec的返回检验方法,可看出与99%置信度下的临界值6.64相比,不管是WTI市场还是Brent市场,不管是上涨还是下跌方向,采用基于正态分布分位数的VaR模型计算市场风险基本上都不够合理。其中,尽管WTI市场的上涨风险计算结果基本上可以接受,但与表4.19中对应的LR值相比,发现后者更加充分而准确。因此,总体而言,采用基于GED分布的VaR模型要比基于正态分布的VaR模型更充分而合适,得到的结果更可取。

当然,在95%的置信度下,基于正态分布和GED分布的VaR模型的LR值几乎一样,都是比较充分的。这是由于它们的分位数几乎是一样的,均为1.645左右。

另外,本节通过计算还发现,如果在建立GARCH模型时假设残差服从正态分布,而计算VaR时又选择一般所采用的正态分布分位数,则得到的VaR模型不管是哪个市场、哪个方向的风险都将很不充分,而先前很多研究往往就是这么做的。

(4)VaR模型的预测能力

从上述分析中可以看到,基于GED-GARCH的VaR模型能够较好地估计和预测样本内数据。为了更加全面检验这种VaR模型的预测能力,接下来本节以95%的置信度为例,采用它来预测样本外数据的VaR风险值,并与样本外的实际收益率数据进行比较。结果发现,在WTI和Brent市场上,落在预测得到的正向VaR和负向VaR之间的实际收益率占整个样本外预测区间所有收益率的比例均为95.76%,接近95%;相应的LR值为0.3409,小于95%置信度下的临界值3.84,因此是可以接受的(图4.24,图4.25)。换言之,根据样本内数据建立的VaR 模型用于预测样本外数据的VaR风险时,其预测能力是可以接受的。另外,为了比较,本节也采用了广受好评的H SAF方法建立模型,并预测了样本外数据的VaR风险,但检验却发现其在此处的预测结果并不理想。因为不管是WTI市场还是Brent市场,落在预测得到的正向VaR和负向VaR之间的收益率占整个预测区间所有收益率的比例均为91.92%,离95%较远;相应的LR统计量为4.40,大于临界值,因此应该拒绝原假设,即认为在此处采用HSAF方法预测市场VaR风险并不妥当。

图4.24 95%的置信度下WTI市场的样本外实际收益率与预测VaR值

图4.25 95%的置信度下Brent市场的样本外实际收益率与预测VaR值

4.4.3.4 WTI与Brent市场风险溢出效应检验

得到WTI和Brent两个市场的收益率上涨和下跌时的VaR风险值之后,本节根据Hong(2003)提出的风险-Granger因果检验方法,构造相应的统计量Q1(M)和Q2(M),并通过MATLAB编程求出统计量的值及其显著性概率,从而检验两个石油市场之间的单向和双向风险溢出效应。计算结果如表4.22所示,其中M分别取10,20和30。

表4.22 WTI与Brent市场风险溢出效应检验结果

从表4.22看到,一方面,在95%和99%的置信度下,不管是上涨风险还是下跌风险,WTI和Brent市场都具有显著的双向Granger因果关系,即两个石油市场之间存在强烈的风险溢出效应;另一方面,为了进一步确定风险溢出的方向,我们从利用单向风险-Granger因果检验的统计量Q1(M)计算得到的结果看到,不管置信度是95%还是99%,不管是上涨风险还是下跌风险,都存在从WTI到Brent市场的风险溢出效应。而若Brent到WTI市场的风险溢出情况稍微复杂,在95%的置信度下,只存在收益率下跌方向的风险溢出,而收益率上涨时并不存在;在99%的置信度下,情况则相反,只存在收益率上涨方向的风险溢出,而不存在下跌方向的风险溢出效应。前者可能是由于95%的置信度下收益率上涨方向的VaR 模型不够充分导致,而99%的置信度下VaR模型是非常充分的,因此后者更为可信。换言之,可以认为在99%的置信度下,不存在从Brent市场到WTI市场的风险溢出效应。

这表示,当市场出现利空消息从而导致油价收益率下跌时,WTI市场的风险状况有助于预测Brent市场的风险,而反之不然。当市场出现利好消息从而导致油价收益率上涨时,两个市场的风险的历史信息均有助于预测彼此未来的市场风险。这对有关政府和企业的科学决策具有一定的借鉴意义。

负油价可以由持有成本模型解释吗

4.4.1.1 基于GED分布的GARCH-VaR模型

在对油价收益率序列建模时,往往发现收益率的波动具有集聚性。为了刻画时间序列的波动集聚性,Engle(1982)提出了ARCH 模型。而在ARCH 模型的阶数很高时,Bollerslev(1986)提出采用广义的ARCH 模型即GARCH 模型来描述波动集聚性。

GARCH模型的形式为

国外油气与矿产资源利用风险评价与决策支持技术

式中:Yt为油价收益率;Xt为由解释变量构成的列向量;β为系数列向量。

国外油气与矿产资源利用风险评价与决策支持技术

事实上,GARCH(p,q)模型等价于ARCH(p)模型趋于无穷大时的情况,但待估参数却大为减少,因此使用起来更加方便而有效。

同时,由于油价收益率序列的波动通常存在杠杆效应,即收益率上涨和下跌导致的序列波动程度不对称,为此本节引入TGARCH模型来描述这种现象。TGARCH模型最先由Zakoian(1994)提出,其条件方差为

国外油气与矿产资源利用风险评价与决策支持技术

式中:dt-1为名义变量:εt-1﹤0,dt-1=1;否则,dt-1=0,其他参数的约束与GARCH模型相同。

由于引入了dt-1,因此油价收益率上涨信息(εt-1﹥0)和下跌信息(εt-1﹤0)对条件方差的作用效果出现了差异。上涨时, 其影响程度可用系数 表示;而下跌时的影响程度为 。简言之,若Ψ≠0,则表示信息作用是非对称的。

在关注石油市场的波动集聚性及杠杆效应的基础之上,进一步计算和监控石油市场的极端风险同样是非常重要的。而监控极端市场风险及其溢出效应的关键在于如何度量风险,为此,本节将引入简便而有效的VaR 方法。VaR(Value-at-Risk)经常称为风险值或在险值,表示在一定的持有期内,一定的置信度下可能的最大损失。VaR 要回答这样的问题:在给定时期内,有x%的可能性,最大的损失是多少?

从统计意义上讲,VaR表示序列分布函数的分位数。本节采用国际油价收益率的分布函数的左分位数来度量油价下跌的风险,表示由于油价大幅度下跌而导致的石油生产者销售收入的减少;而采用分布函数的右分位数来度量油价上涨的风险,表示油价大幅度上涨而导致的石油采购者的额外支出。这种思路,一方面推进了一般金融市场仅仅分析价格下跌风险的做法;另一方面,也针对石油市场的特殊情况,更加全面地度量了市场风险,从而为从整体上认识石油市场,判断市场收益率的未来走向奠定了基础。

VaR风险值的计算方法很多,能够适用于不同的市场条件、数据水平和精度要求。概括而言,可以归结为3种:方差-协方差方法、历史模拟方法和方法。本节采用方差-协方差方法计算国际石油市场的VaR 风险。在采用方差-协方差方法的过程中,估计VaR模型的参数是至关重要的。常用的参数估计方法包括GARCH 模型和J.P.摩根的Risk Metrics方法。由于后者假设价格序列服从独立异方差的正态分布,而且不能细致描述价格波动的某些特征(如杠杆效应),因此相对而言,前者更受青睐。但是,使用GARCH模型估计VaR时,选择残差项的分布是一个非常重要的问题。考虑到油价收益率序列具有尖峰厚尾和非正态分布的特征,因此直接采用正态分布的假设往往会低估风险。为此,本节引入Nelson(1990)提出的广义误差分布(GED)来估计GARCH模型的残差项。其概率密度函数为

国外油气与矿产资源利用风险评价与决策支持技术

式中: Г(·)为gamma函数;k为GED分布参数,也称作自由度,它控制着分布尾部的薄厚程度,k=2表示GED分布退化为标准正态分布;k﹥2表示尾部比正态分布更薄;而k﹤2表示尾部比正态分布更厚。可见GED分布是一种复杂而综合的分布。实际上,也正是由于GED分布在描述油价收益率分布的厚尾方面具有独特的优势,因此本节引入基于GED分布的GARCH模型来估计国际石油市场收益率上涨和下跌时的VaR。

计算出石油市场的VaR风险值之后,为了给有关方面提供准确可靠的决策支持,有必要对计算结果进行检验,以判断所建立的VaR模型是否充分估计了市场的实际风险。为此,本节将采用Kupiec提出的检验方法来检验VaR模型的充分性和可靠性。该方法的核心思想是:假设计算VaR的置信度为1-α,样本容量为T,而失效天数为Ⅳ,则失效频率f=Ⅳ/T。这样对VaR 模型准确性的评估就转化为检验失效频率f是否显著不同于α。基于这种思想,Kupiec提出了对原假设f=а的最合适的似然比率检验:在原假设下,统计量LR服从自由度为1的X2分布,95%和99%置信度下的临界值分别为3.84和6.64。根据x2分布的定义,如果估计值LR大于临界值,就拒绝原假设,即认为估计的VaR模型是不充分的。

国外油气与矿产资源利用风险评价与决策支持技术

4.4.1.2 基于核权函数的风险溢出效应检验方法

本节将采用Hong(2003)提出的风险-Granger因果关系检验方法检验WTI和Brent原油市场的风险溢出效应。该方法的核心思想是通过VaR 建模来刻画随着时间变化的极端风险,然后运用Granger因果检验的思想来检验一个市场的大风险历史信息是否有助于预测另一个市场的大风险的发生。

首先,定义基于VaR的风险指标函数。以下跌风险为例:

Zm,t=I(Ym,t﹤-VaRm,t)(m=1,2) (4.11)

式中:I(·)为指标函数。当实际损失超过VaR时,风险指标函数取值为1,否则为0。

如果检验市场2是否对市场1产生了单向的风险溢出,则原假设为H0:E(Z1,t∣I1,t-1)=E(Z1,t∣It-1),而备择假设为HA:E(Z1,t∣I1,t-1)≠E(Z1,t∣It-1),其中It-1={Ym,t-1,Ym,t-2,…),表示t-1时刻可以获得的信息集。通过这种转换,{ Y1,t}和{Y2,t}之间的风险-Granger因果关系就可以看成是{Z1,t}和{Z2,t}之间的均值-Granger因果关系,即计量经济学模型中广泛使用的Granger因果关系。

如果Ho成立,即市场2 对市场1不存在单向的风险-Granger因果关系,则表示Cov(Z1,t,Z2,t-j)=0, j﹥0。如果对某一阶j﹥0,有Cov(Z1,t,Z2,t-j)≠0,则表明存在风险-G ranger因果关系。换言之,当一个市场发生大的风险时,我们能用这个信息去预测另一个市场未来可能发生同样风险的可能性。

现在设VaRm,t=VaRm(Im,t-1,α),m=1,2是市场m在风险水平(即显著性水平)α下得到的VaR序列,本节引入基于GED分布的GARCH 模型,并利用方差-协方差方法得到该序列。设有T个随机样本 并令Zm,t=I(Ym,t﹤-VaRm,t),m=1,2,则定义Z1,t和Z2,t之间的样本互协方差函数(CCF)为

国外油气与矿产资源利用风险评价与决策支持技术

式中: 。而Z1,t和Z2,t的样本互相关函数为

国外油气与矿产资源利用风险评价与决策支持技术

式中: 是Zm,t的样本方差;j=0,±1,…,±(T-1)。

然后,Hong(2003)提出了基于核权函数的单向风险-Granger因果关系检验统计量:

国外油气与矿产资源利用风险评价与决策支持技术

式中:中心因子和尺度因子分别为

国外油气与矿产资源利用风险评价与决策支持技术

式中k(·)为核权函数,而且H ong(2003)证明了Daniell核权函数k(z)=sin(π)z/π ,z∈(-∞,+∞)是最优的核权函数,能够最大化检验效力。该核权函数的定义域是无界的,此时可把M 看作是有效滞后截尾阶数;而且当M 较大时,Q1(M)能够更加有效地检测出风险溢出效应的时滞现象。

Hong(2003)同时给出了检验双向风险-Granger因果关系的统计量,其原假设为两个市场之间任何一个市场均不G ranger-引起另一个市场的极端风险,并且两个市场之间不存在任何即时风险溢出效应。这表示对于任意阶j=0,±1,±2,…,均有Cov(Z1,t,Z2,t-j)=0。为了检验该原假设,Hong(2003)提出了如下的统计量:

国外油气与矿产资源利用风险评价与决策支持技术

式中:中心因子和尺度因子分别为

国外油气与矿产资源利用风险评价与决策支持技术

原假设成立时,Q1(M)和Q2(M)在大样本条件下均服从渐近的标准正态分布。而且,Hong(2003)指出,运用这两个统计量时,应该使用标准正态分布的右侧临界值。

负油价不可以由持有成本模型解释。理论上指数套利操作会使得股指期货实际价格回归其理论价格,但该模型假设过多违反现实情况和忽略市场环境因素,使得其在解释及预测股指期货价格走势时显得不够完美,国外已有多位研究者实证发现,股指期货实际价格与持有成本定价模型所估算出的理论价格之间有显著差异。