搜索
查看: 3066|: 0

机构选股逻辑变异 量化投资互联网掘金大数据

[复制链接]

146

主题

7

回帖

574

积分

高级会员

积分
574
发表于 2014-10-11 16:34:50 | 显示全部楼层 |阅读模式
  利用互联网金融大数据构建选股模型,正成为A股市场的一股新潮流。

  10月20日,广发基金与百度公司合作开发的广发中证百度百发策略100指数基金将启动发行,这是业内首只跟踪具有互联网基因指数的指数型基金产品。

  计划推出互联网基因指数产品的还有南方基金管理有限公司。

  “跟踪大数据指数的基金产品方案将于近期正式申报监管机构,预计年内发行跟踪i100指数的基金产品。”南方基金产品开发部副总监鲁力透露。

  据21世纪经济报道记者采访了解,除广发、南方基金外,业内还有基金公司的量化投资部和专户部在研究“大数据”的量化策略。

  此外,券商研究所的金融工程团队同样在挖掘“大数据”的投资机会。其中业内的代表为长江证券金融工程团队,他们早在年初即根据新浪财经新闻数据构建新闻选股模型。

  大数据的魅力

  利用互联网大数据挖掘股市的超额收益机会正成为近期基金业的一股新潮流。而动作较快的当属广发基金和南方基金这两家基金公司。

  其中,广发基金联合百度公司、中证指数公司开发百发100指数,南方基金则携手新浪财经、深证信息公司推出了i100指数和i300指数。

  基金公司竞相开发大数据指数的动力在于,基于大数据筛选出来的组合,大幅跑赢现有的指数基金。

  中证指数公司提供的数据显示,自2009年至2014年6月30日,百发100指数的累计收益率达到545%。同期,中证500、中证全指、沪深300指数的收益率分别为102%、56%、19%。

  历史收益源自模型样本的模拟测算,外界对其收益率或许存有疑问。而百发100指数产品在模型样本外的实盘数据,同样大幅跑赢主流指数。

  广发基金量化投资部研究员季峰向记者介绍,6月20日开始,百发100指数进入实盘运行阶段。自此至10月8日,百发100指数实现的累计收益率达到43.33%。同期,沪深300指数、上证指数和创业板全指的收益率分别只有16.52%、17.74%和17.94%。

  i100等权重指数和i300等权重指数的历史收益率,同样凸显出大数据的优势。

  自2010年1月29日至2014年7月31日,i100和i300的累计收益率分别达到222.40%和141.58%,远高于同期创业板指数34.45%的累计收益,更高于中小板指数-8.95%的累计收益率。

  南方基金量化投资部总监刘治平介绍,南方新浪大数据指数自8月开始正式进入模型样本外运行。其中,i100等权重指数在8月和9月份实现的月收益率分别为10.93%、15.63%。这意味着该指数在两个月期间的收益率达到26.56%。

  券商的研究团队同样在挖掘“大数据”带来的投资机会。其中,长江证券金融工程团队自年初即建立新闻选股模型,自1月12日开始样本外跟踪。

  长江证券金融工程主管范辛亭发布的研究报告显示,1月22日至8月15日,新闻选股模型累计的绝对收益率达到52.45%,超越沪深300指数39.44%,超越中证500指数30%。

  招商证券金融工程高级分析师夏潇阳利用深交所互动易披露的调研信息,构建中小板创业板调研组合。实盘跟踪的结果显示,自年初至9月30日,该调研组合实现的累计收益率为29.31%,跑赢中小板指数14.91%,超越创业板指数的幅度是8.53%。

  引入互联网基因

  无论是长江证券、招商证券构建的选股模型,还是广发基金、南方基金推出的大数据指数,其共同点在于引入网民对个股的搜索大数据作为选股因子。

  “百发100指数的原理是在传统指数模型的基础上,增加百度大数据的搜索因子,相当于将投资者即将发生的行为提前纳入指数指标中。”广发基金数量投资部总经理陆志明如是表示。

  百发100指数的参与开发者、广发基金数量投资部研究员季峰介绍,百发100的模型也叫投资者综合情绪模型,它相当于一个超大的数据熔炉,将财务因子、动量因子、搜索因子等几类数据做多维度分析,使其在高维空间发生化学反应。

  “利用百度平台数据,对样本空间的股票分别计算最近一个月的搜索总量和搜索增量,分别计为总量因子和增量因子。”季峰介绍,百度金融大数据,从某种意义上说是度量投资者情绪的量化方法之一,可用以反映投资者的投资意愿或预期。

  “百发100指数的创新之处在于,网络搜索量成为选择成份股的影响因素,指数的构建利用了百度在搜索领域的强势资源,具有显著的互联网基因。”众禄基金研究中心研究员廖帅说。

  中证指数公司网站披露的信息显示,百发100指数的选样方法是按照综合财务因子、综合动量因子和搜索因子计算的综合评分降序排列,选取排名前100名的股票作为百发100指数的成份股。

  其中,综合财务因子涵盖净资产收益率、资产收益率、每股收益增长率等8个财务因子。综合动量因子是计算最近一个月的个股价格收益率和波动率,得到风险调整后的动量指标。按照其大小从高往低排列,排在前30%的记为动量因子,后30%则记为反转因子。

  南方新浪财经大数据的选样方法中同样引入国内第一大门户新浪网的大数据。

  “i指数的选股因子包括财务因子、大数据因子和市场驱动因子。”南方基金权益投资部总监史博说,大数据因子涵盖了新浪财经下的页面点击量、微博的正负面文章、新闻报道影响。

  此外,财务因子包括最新市盈率PE、净资产收益率ROE、年度营业收入和净利润增长率以及他们的变化预测。市场驱动因子则是指股票近期换手率、波动率、价格变化率、成交量变化率。

  早在南方基金之前,长江证券的金融工程团队就利用新浪财经的数据构建了新闻选股模型。

  “我们通过对新浪财经的数据,选取新闻关注度蹿升最快(周点击量增速最快)的排名前50的股票,剔除有坏消息的公司,构建一个50只个股的选股组合。”范辛亭指出,新闻选股模型的核心是选取近期点击量有较大提高的个股构建组合,以求寻找新闻热度所带来的预期变化。

  虽然都是引入互联网金融大数据作为选股因子,但不同机构构建的成份股还是有明显区别。

  中证指数公司披露的信息显示,百发100指数首期100只成份股中,样本股在各个市场板块相对比较分散。其中,中小板股票数量最多,达到39只。其次为上证主板31只,深证主板和创业板各占25只和5只。

  从行业分布看,百发100指数的成份股中前五大行业是工业、可选消费、原材料、金融地产、信息技术,合计占指数的权重比例达到85%。相比沪深300指数,其金融地产配置比例较少,信息技术和可选消费等明显超配。

  根据财务因子、大数据因子和市场驱动因子,i指数选出的成份股主要分布在原材料、信息技术、工业与可选消费四个行业。其中,i100指数、i300指数在上述这四大行业的权重占比分别为73%与71%。

  颠覆选股逻辑

  当基金公司和券商研究将互联网金融的大数据作为选股因子引入模型,代表着资产管理机构在指数投资上重构选股逻辑。

  “传统指数编制依赖的是市值规模、成交金额、财务及估值等传统因子。它最大的缺点是采用过去3个月或6个月的数据去预测未来一期的收益,参数对历史数据有严重的依赖。”陆志明指出,利用百度数据融入了投资者在投资决策前的行为规律,对未来的市场投资规律有一定的预测作用,其预测效果好于传统的来源于历史数据的因子数据。

  而与传统指数不同的是,百发100指数的编制思路是跳出行业、板块的限制,从全市场中寻找超额收益的机会。

  “我们希望通过财务数据、动量数据和百度大数据,试图去发现市场未来一个月轮动的热点。”季峰认为,百发100指数选股模型的特点是,它所挑的股票是契合未来市场或行业轮动热点,且基本面良好,未来有一定成长空间的价值型股票。

  南方基金和新浪合作推出的大数据指数也是采用相同的思路。

  “利用大数据投资向市场广度要超额收益。”南方基金权益投资部总监史博根据wind数据统计发现,自2005年至2014年,即便全市场平均收益率为负数,依然能找出超越市场30%的股票。

  以2014年年初至8月22日为例,wind全A的收益率是14.12%,超越市场30%的股票个数达到535只,占全市场股票数量的比例是22%。其中,这批股票的平均收益率达到74.63%。

  在业内看来,基金公司量化投资部引入互联网大数据,目的是将这类超越市场平均收益的标的挖掘出来。基于此,与传统指数半年调一次样本股不同的是,百发100指数和i100、i300指数其样本股的调仓频率均设置为每个月一次。

  “每个月大概有50%的成份股会发生调整。”季峰介绍,百发100指数以每个月第三周的周五进行样本调仓。自6月20日至今,调整了三次样本。其中,每个月约有一半的成份股会被替换。

  季峰坦言,相比其它的指数,百发100指数成份股的调整比例相对偏高。但他认为,指数样本的调整频率、幅度远超传统指数,目的是更好地把握市场的轮动行情。

  深圳证券信息有限公司邢精平博士提供的数据亦显示,自2013年7月1日至2014年6月1日,南方新浪大数据的近12次样本股调仓中,i100指数平均每次调整41只股票,i300指数平均每次调整95只样本股,月度平均调仓比例分别为43.5%和34.5%。

  在业内看来,近两年来,国内市场具有明显主题轮动的特点。基于“大数据”开发的策略指数非常适合主题轮动的市场行情。

  不过,也有研究机构提出,引入大数据的模型能否经受考验,还有待时间验证。

  “百发100指数和i系数指数的构建在考量个股价值的同时,也积极地把握市场的关注热点和舆情,这样的出发点对争取良好表现是有益的。”廖帅认为,利用互联网基因构建的数量模型是否足够合理,还有待时间给出答案。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

大数据中国微信

QQ   

版权所有: Discuz! © 2001-2013 大数据.

GMT+8, 2024-12-24 10:56 , Processed in 0.100381 second(s), 24 queries .

快速回复 返回顶部 返回列表