写量化策略时常用的技巧-CDA数据分析师官网

写量化策略时常用的技巧

2018-05-15

写量化策略时常用的技巧

1.善用panel保存数据
说明：pandas有三种数据结构，分别是Series（一维），DataFrame（二维），panel（三维）
例子：沪深300成分股所有股票[stock list]在某些特征指标如成交量、收盘价[indicator list]上的某时间区间内的历史序列[time series]，
[stock list] * [indicator list] * [time series]=3维
Q:如何通过Windpy接口来形成我们的三维面板数据呢？
A：按个股循环，获取每只股票的序列数据（二维）；再把300只个股合并成三维。
例代码1：获取面板原始数据（daily），后期再在这张大的面板数据上计算月度的情况，再排序形成组合。再形成一个新的面板。【思路：总-分-总】
ps1：缺点就是从总表中拆开按每个因子形成月度收益再concat合并，这个过程很麻烦，不如一开始就按因子分开处理好，再合并形成面板数据。

ps2：wind API每天12000条左右的记录限制，意味着300只股票，每天只能他爸爸的获取30天的数据，10年的数据（120个月）得花120天来下载，这很坑啊。。。肯定是要另外想办法的，平时写策略主要目的是训练思路和练手，对数据质量要求不太高，目前看来，聚宽是最好的选择，策略编写平台类似jupyter notebook，也支持python的所有package。
import pandas as pd
import copy
from WindPy import w
import datetime
w.start()

## 函数getAsharePanels(),获取A股历史面板数据
def getAsharePanels(stockcodes,start_date,end_date):

    append_data=pd.DataFrame(columns=['trade_date','stock_code','open','high','low','close','volume']) #产生一个辅助数据集，帮助后面循环时汇总
    individual_data=pd.DataFrame() #存放个股交易信息的数据集
    result={} #result是一个三维的字典
    for individual_stockcode in stockcodes:

        # 依次生成个股数据集（变量包括：日期、代码、开盘价、最高价、最低价、收盘价、成交量）
        stock=w.wsd(individual_stockcode, "trade_code,open,high,low,close,volume",start_date,end_date)
        individual_data['trade_date']=stock.Times
        individual_data['stock_code']=stock.Data[0]
        individual_data['open']=stock.Data[1]
        individual_data['high']=stock.Data[2]
        individual_data['low']=stock.Data[3]
        individual_data['close']=stock.Data[4]
        individual_data['volume']=stock.Data[5]

        # 通过300次迭代，把300只股票的df格式的individual_data数据放到result里，形成3维的字典
        result[+1]=individual_data
    rawdata = pd.Panel(result) #获取的沪深300成分股的3维数据保存在rawdata中

    return rawdata

## 调用函数getAsharePanels(),获取A股历史面板数据
todayDate=datetime.datetime.strftime(datetime.date.today(),"%Y%m%d")
wsetdata=w.wset('SectorConstituent','date='+todayDate+';sectorId=1000000090000000;field=wind_code') #通过wset获取沪深300成分股代码
stockcodes=list(wsetdata.Data[0])
start_date='20120101'      #样本数据起始日期
end_date='20171231'        #样本数据结束日期
rawdata_panel=getAsharePanels(stockcodes,start_date,end_date)
例代码2：
【先分后合】
step1：
一维：先写好一系列函数，分开处理好各因子的历史序列数据（如：月度收益、排序形成portfolio等）
step2：写个两层的循环，把一维变成二维，再变成三维
二维（内层循环）：再把一维按照因子类别作为二维的dataframe的列，以此思路来形成二维表，如：df[‘PE’]=seriesXXX
三维（外层循环）：按monthly的时间来循环，把二维的截面数据加上时间维度，变成三维的，形成一张panel

Q:分开处理好数据以后，如何形成我们的三维面板数据呢？
A：最外层循环：按时间（换仓频率一般是月度）
最内层循环：调用windpy接口获取每只股票的所有因子的截面数据，按股票代码循环（成交等、价格等）

## 函数1：计算组合的月度收益率
def caculate_port_monthly_return(port,startdate,enddate,nextdate,CMV):
    close1 = get_price(port, startdate, enddate, 'daily', ['close']) #三维面板数据 pandas.core.panel.panel'="">
    close2 = get_price(port, enddate, nextdate, 'daily',['close']) #面板数据 pandas.core.panel.panel'="">
    weighted_m_return = ((close2['close'].ix[0,:]/close1['close'].ix[0,:]-1)).mean() #等权加权
    return weighted_m_return
## 函数2：计算benchmark组合的月度收益
def caculate_benchmark_monthly_return(startdate,enddate,nextdate):
    close1 = get_price(['000001.XSHG'],startdate,enddate,'daily',['close'])['close']
#二维
    close2 = get_price(['000001.XSHG'],enddate, nextdate, 'daily',['close'])['close']
    benchmark_return = (close2.ix[0,:]/close1.ix[0,:]-1).sum()
    print close1
    return benchmark_return

## 核心策略：构建因子组合并计算每月换仓时不同组合的月收益率
# 得到结果monthly_return为panel数据，储存所有因子，在7×12个月内5个组合及benchmark的月收益率
factors = ['B/M','EPS','PEG','ROE','ROA','GP/R','P/R','L/A','FAP','CMV']
#因为研究模块取fundmental数据默认date为研究日期的前一天。所以要自备时间序列。按月取
year = ['2011','2012','2013','2014','2015','2016','2017']
month = ['01','02','03','04','05','06','07','08','09','10','11','12']
result = {}

for i in range(7*12):
    startdate = year[i/12] + '-' + month[i%12] + '-01'
    try:
        enddate = year[(i+1)/12] + '-' + month[(i+1)%12] + '-01'
    except IndexError:
        enddate = '2016-01-01'
    try:
        nextdate = year[(i+2)/12] + '-' + month[(i+2)%12] + '-01'
    except IndexError:
        if enddate == '2018-01-01':
            nextdate = '2018-02-01'
        else:
            nextdate = '2018-01-01'
    #print 'time %s'%startdate
    fdf = get_factors(startdate,factors)
    CMV = fdf['CMV']
    #5个组合，10个因子
    df = DataFrame(np.zeros(6*10).reshape(6,10),index = ['port1','port2','port3','port4','port5','benchmark'],columns = factors)
    for fac in factors:
        score = fdf[fac].order()
        port1 = list(score.index)[: len(score)/5]
        port2 = list(score.index)[ len(score)/5+1: 2*len(score)/5]
        port3 = list(score.index)[ 2*len(score)/5+1: -2*len(score)/5]
        port4 = list(score.index)[ -2*len(score)/5+1: -len(score)/5]
        port5 = list(score.index)[ -len(score)/5+1: ]
        df.ix['port1',fac] = caculate_port_monthly_return(port1,startdate,enddate,nextdate,CMV)
        df.ix['port2',fac] = caculate_port_monthly_return(port2,startdate,enddate,nextdate,CMV)
        df.ix['port3',fac] = caculate_port_monthly_return(port3,startdate,enddate,nextdate,CMV)
        df.ix['port4',fac] = caculate_port_monthly_return(port4,startdate,enddate,nextdate,CMV)
        df.ix['port5',fac] = caculate_port_monthly_return(port5,startdate,enddate,nextdate,CMV)
        df.ix['benchmark',fac] = caculate_benchmark_monthly_return(startdate,enddate,nextdate)
        #print 'factor %s'%faesult[i+1]=df
monthly_return = pd.Panel(result)

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

DataFrame pandas python 特征 Series

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇某券商自营部量化策略岗的面试题

下一篇R 和 Python 联姻！本年度最牛“社交”

写量化策略时常用的技巧

CDA考试动态

CDA报考指南

热门栏目

最新资讯

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...

tensorflow_datasets 如何load本地的数据集？ ...

《CDA二级教材》试读版上线CDA网校，助你轻松拿下二 ...

【干货】3步带你画出用户DNA，精准营销更进一步 ...

什么是随机森林，它的优缺点是什么？：面试标准答案 ...

【干货】电商营收暴跌40%，如何排查？ ...

【干货】如何通过精细化运营提升 DAU 指标？ ...

【干货】AB test 在业务中的落地应用

自上而下的指标体系构建全攻略

解锁数据分析师高薪密码，CDA 脱产就业班助你逆袭！ ...

如何在mysql语句中查询一个表,但不包含某字段? ...

深度解析用户画像：数据运营的核心力量 ...

2025年AI智能体元年，数据分析师会被替代吗？ ...

【案例】业务数据分析方法之多维度拆解 ...

【干货】我手里有好几个产品，该怎么分配资源？-波 ...

【干货】5步搞定数据异常分析

CDA数据人才能力模型与认证体系简介