干货丨 用 Python 进行股票分析
人们很容易被丰富的数据和各种免费开源工具所吸引。在研究了quandl financial library和prophet modeling library之后,我打算试着探究简单的股票数据。我花了几天的时间,前后写了1000多行Python代码,最终得出了一个完整的股票分析预测工具。虽然我没有自信用这个来投资某些个股,但在整个过程中我学到了很多Python的知识。秉承开源的精神,在这里我打算分享这些代码,让更多的人受益。
本文将展示如何使用Stocker,这是基于Python的股票分析预测工具。我看过一些对象导向的Python编程书籍,但就像大多数编程书籍一样,当我阅读这些书时,我并没有真正理解当中的内容。只有当我在深入一个项目,且遇到从未解决问题时,我才会终于理解那些概念,这也再次证明了实践比理论更重要。除了探索Stocker之外,我们还会涉及一些重要的内容,包括Python的基础知识和加性模型(additive model)。如果你想使用Stocker,可以在GitHub上找到完整的代码以及使用文档。Stocker很简单易用,即使是Python初学者也能学会,我建议每个人都试试。下面让我们一起看看Stocker的分析能力!
Stocker入门
在安装完需要的库之后,我们首先要将Stocker类导入到Python会话中。这里可以使用交互式Python会话或者在脚本目录中启动Jupyter Notebook。
from stocker import Stocker
现在,我们的Python会话中有了Stocker类,接着可以用它来创建类的实例。在Python中,类的实例称为对象,创建对象有时称为实例化或构造。为了创建一个Stocker对象,我们需要传递一个有效的股票代码。
microsoft = Stocker('MSFT') MSFT Stocker Initialized. Data covers 1986-03-13 to 2018-01-16.
现在,我们有了具有Stocker类属性的microsoft对象。Stocker建立在quandl WIKI数据库上,因此我们可以访问3000多只美国股票,并且可以查看多年的每日价格数据。这里我建议使用微软的数据。尽管微软被认为是开源的对立面,但他们最近做了一些改变,因此我认为他们正在接受开源社区(包括Python)。
Python中的类由两个主要部分组成:属性和方法。没有太多的细节,属性是与类相关的值或数据,或者是类的特定实例(对象)。方法是类中可用于数据的函数。Stocker对象的一个属性是特定公司的股票数据,当我们进行构造时,属性与该对象相关联。我们可以访问该属性,并将其分配给另一变量进行检查:
# Stock is an attribute of the microsoft object stock_history = microsoft.stock stock_history.head()
微软股票数据
Python类的好处是方法(函数)和所操作的数据与同一个对象相关联。我们可以使用Stocker对象的方法来绘制股票的历史股价。
# A method (function) requires parentheses microsoft.plot_stock() Maximum Adj. Close = 89.58 on 2018-01-12. Minimum Adj. Close = 0.06 on 1986-03-24. Current Adj. Close = 88.35.
默认值是调整后的收盘价格,这解释了股票拆分的原因(当一只股票被拆分成多只股票,比如2,每个新股票的价值是原始价格的1/2)。
这个图可以在谷歌搜索中轻松找到,但是这里我们可以用Python代码完成。plot_stock函数有许多可选的参数。默认情况下,这种方法会绘制整个日期范围的调整收盘价格,但我们还可以选择范围、统计数据和绘图类型。例如,如果我们想比较每日价格变化与交易量(股票数量),我们可以在函数指定那些变量。
microsoft.plot_stock(start_date = '2000-01-03', end_date = '2018-01-16', stats = ['Daily Change', 'Adj. Volume'], plot_type='pct') Maximum Daily Change = 2.08 on 2008-10-13. Minimum Daily Change = -3.34 on 2017-12-04. Current Daily Change = -1.75. Maximum Adj. Volume = 591052200.00 on 2006-04-28. Minimum Adj. Volume = 7425503.00 on 2017-11-24. Current Adj. Volume = 35945428.00.
注意,y轴的百分比变化对应统计的平均值。这个规模是有必要的,因为股票的日常交易量数以亿计,而每日价格变化通常是几美元!通过转换为百分比的变化,我们可以用类似的规模查看这两个数据集。该图表显示,交易的股票数量和每日价格变化之间没有相关性,这很令人惊讶。我们通常认为,在股价变动大的时候股票交易更多。然而,真正的情况是交易量随着时间而下降。2017年12月4日,价格大幅度下降,我们可以联系相关微软新闻。12月3日的新闻如下:
不确定这些新闻来源是否可靠
当然,没有任何迹象表明微软股票将在第二天出现十年来最大的下跌。
使用plot_stock,我们可以查看任何日期的数据,并查找与现实事件(如果有的话)的相关性。接下来,我们看到Stocker当中很有意思的部分。
假设我们很有远见的在公司首次公开募股(IPO)中投资了100股微软股票。那如今我们肯定赚翻了!
microsoft.buy_and_hold(start_date='1986-03-13', end_date='2018-01-16', nshares=100) MSFT Total buy and hold profit from 1986-03-13 to 2018-01-16 for 100 shares = $8829.11
除了让我们感觉更好,使用这些结果能让我们对之后进行规划,实现利润最大化。
microsoft.buy_and_hold(start_date='1999-01-05', end_date='2002-01-03', nshares=100) MSFT Total buy and hold profit from 1999-01-05 to 2002-01-03 for 100 shares = $-56.92
加性模型
加性模型是分析和预测时间序列的强大工具,而且是最常见的数据类型之一。这个概念很简单:将时间序列表示为不同时间范围和整体趋势的组合。众所周知,微软股票的长期趋势是稳步增长的,但也可能会有每年、每天的增长模式,比如每个星期二增长一次。由Facebook开发的Prophet是通过日常观察,从而分析时间序列的库。Stocker用Prophet完成了所有建模的工作,因此我们可以用简单的方法创建、检查模型。
model, model_data = microsoft.create_prophet_model()
加性模型可以消除数据中的噪音,这就是为什么建模线与观测结果不完全一致的原因。Prophet模型能够计算不确定性,这是建模的一个重要部分。我们也可以用Prophet模式来预测未来,但现在我们更关注过去的数据。注意,这个方法调用返回了两个对象,模型和一些数据,我们将它们分配给变量。现在我们用用这些变量绘制时间序列组件。
# model and model_data are from previous method call model.plot_components(model_data) plt.show()
总体趋势是过去三年来的明显增长。此外,还有一个值得注意的年度模式(下图),股价在9月份和10月份触底,11月份和1月份达到峰值。随着时间范围的缩短,数据中变化幅度越来越大。如果我们认为可能存在周模式,那么可以更改Stocker对象的weekly_seasonality属性,并将其添加到prophet 模型中:
print(microsoft.weekly_seasonality) microsoft.weekly_seasonality = True print(microsoft.weekly_seasonality) False True
weekly_seasonality的默认值是False,但我们改变该值,从而让模型包含周模式。然后,我们再次调用create_prophet_model并绘制结果组件。以下是新模式的每周模式。
我们可以忽略周末,因为价格只会在一周内发生变化。在继续建模之前,我们将关闭每周的季节性。股票的走势基本是随机的,只能从每年的大范围才能看到趋势。
变点 (Change points)
当时间序列从递增到递减或相反情况时,会出现变点(严格地说,变点位于时间序列变化率最大的地方)。这是非常重要的,因为知道什么时候股票将上涨或达到顶峰会带来显著的经济效益。识别变点能够让我们预测股票价格的未来波动。Stocker对象能够自动为我们找到10个最大的变点。
microsoft.changepoint_date_analysis() Changepoints sorted by slope rate of change (2nd derivative): Date Adj. Close delta 48 2015-03-30 38.238066 2.580296 337 2016-05-20 48.886934 2.231580 409 2016-09-01 55.966886 -2.053965 72 2015-05-04 45.034285 -2.040387 313 2016-04-18 54.141111 -1.936257
变点往往与股价的高峰和低谷一致。Prophet只能在前80%的数据中找到变点,但是这些结果是有用的,因为我们可以尝试将其与真实事件相关联。我们可以重复之前的做法,比如在这些日期手动搜索相关新闻资讯,但是如果能让Stocker完成就更好了。你也许知道搜索趋势工具,该工具可让你随时查看谷歌搜索中的关键字的流行度。Stocker可以自动检索任何搜索内容,并将结果绘制在原始数据上。为了查找和绘制搜索词的频率,我们修改了之前的方法调用。
# same method but with a search term microsoft.changepoint_date_analysis(search = 'Microsoft profit') Top Related Queries: query value 0 microsoft non profit 100 1 microsoft office 55 2 apple 30 3 microsoft 365 30 4 microsoft office 365 20 Rising Related Queries: query value 0 microsoft 365 120 1 microsoft office 365 90 2 microsoft profit 2014 70
除了绘制相关的搜索频率外,Stocker还会显示图表日期范围内的热门搜索词。通过将值除以最大值将y轴的值控制在0和1之间,从而让我们比较两个不同比例的变量。从图中可以看出,搜索“微软利润”和微软股价之间没有任何联系。
即使找到了相关性,还是存在因果关系的问题。我们不知道新闻是否导致价格变化,或价格变化导致搜索。可能有会找到一些有用信息,但也可能是偶然的。你可以试试不同的词,看看能否找到相关趋势。
microsoft.changepoint_date_analysis(search = 'Microsoft Office')
预测
到目前为止,我们只探索了Stocker一半的作用,另一半可以用来预测未来股价。虽然这可不会带来收益,但在这个过程中能够学到很多东西。
# specify number of days in future to make a prediction model, future = microsoft.create_prophet_model(days=180) Predicted Price on 2018-07-15 = $97.67
尽管Stocker的所有功能已经公开可用,但是创建这个工具的过程很有趣。重要的是相比大学课程,这能让我学到更多的数据科学、Python和股票市场的知识。如今在大数据的时代,每个人都能学习编程、机器学习。如果你有项目创意,但不确定自己有能力去完成,不要让它阻止你。你可能会得出更好的解决方案,即使没有成功你也在过程中学到很多知识。
数据分析咨询请扫描二维码
在准备数据分析师面试时,掌握高频考题及其解答是应对面试的关键。为了帮助大家轻松上岸,以下是10个高频考题及其详细解析,外加 ...
2024-12-20互联网数据分析师是一个热门且综合性的职业,他们通过数据挖掘和分析,为企业的业务决策和运营优化提供强有力的支持。尤其在如今 ...
2024-12-20在现代商业环境中,数据分析师是不可或缺的角色。他们的工作不仅仅是对数据进行深入分析,更是协助企业从复杂的数据信息中提炼出 ...
2024-12-20随着大数据时代的到来,数据驱动的决策方式开始受到越来越多企业的青睐。近年来,数据分析在人力资源管理中正在扮演着至关重要的 ...
2024-12-20在数据分析的世界里,表面上的技术操作只是“入门票”,而真正的高手则需要打破一些“看不见的墙”。这些“隐形天花板”限制了数 ...
2024-12-19在数据分析领域,尽管行业前景广阔、岗位需求旺盛,但实际的工作难度却远超很多人的想象。很多新手初入数据分析岗位时,常常被各 ...
2024-12-19入门数据分析,许多人都会感到“难”,但这“难”究竟难在哪儿?对于新手而言,往往不是技术不行,而是思维方式、业务理解和实践 ...
2024-12-19在如今的行业动荡背景下,数据分析师的职业前景虽然面临一些挑战,但也充满了许多新的机会。随着技术的不断发展和多领域需求的提 ...
2024-12-19在信息爆炸的时代,数据分析师如同探险家,在浩瀚的数据海洋中寻觅有价值的宝藏。这不仅需要技术上的过硬实力,还需要一种艺术家 ...
2024-12-19在当今信息化社会,大数据已成为各行各业不可或缺的宝贵资源。大数据专业应运而生,旨在培养具备扎实理论基础和实践能力,能够应 ...
2024-12-19阿里P8、P9失业都找不到工作?是我们孤陋寡闻还是世界真的已经“癫”成这样了? 案例一:本硕都是 985,所学的专业也是当红专业 ...
2024-12-19CDA持证人Louis CDA持证人基本情况 我大学是在一个二线城市的一所普通二本院校读的,专业是旅游管理,非计算机非统计学。毕业之 ...
2024-12-18最近,知乎上有个很火的话题:“一个人为何会陷入社会底层”? 有人说,这个世界上只有一个分水岭,就是“羊水”;还有人说,一 ...
2024-12-18在这个数据驱动的时代,数据分析师的技能需求快速增长。掌握适当的编程语言不仅能增强分析能力,还能帮助分析师从海量数据中提取 ...
2024-12-17在当今信息爆炸的时代,数据分析已经成为许多行业中不可或缺的一部分。想要在这个领域脱颖而出,除了热情和毅力外,你还需要掌握 ...
2024-12-17数据分析,是一项通过科学方法处理数据以获取洞察并支持决策的艺术。无论是在商业环境中提升业绩,还是在科研领域推动创新,数据 ...
2024-12-17在数据分析领域,图表是我们表达数据故事的重要工具。它们不仅让数据变得更加直观,也帮助我们更好地理解数据中的趋势和模式。相 ...
2024-12-16在当今社会,我们身处着一个飞速发展、变化迅猛的时代。不同行业在科技进步、市场需求和政策支持的推动下蓬勃发展,呈现出令人瞩 ...
2024-12-16在现代商业世界中,数据分析师扮演着至关重要的角色。他们通过解析海量数据,为企业战略决策提供有力支持。要有效完成这项任务, ...
2024-12-16在当今数据爆炸的时代,数据分析师是组织中不可或缺的导航者。他们通过从大量数据中提取可操作的洞察力,帮助企业在竞争激烈的市 ...
2024-12-16