当前位置:首页 > 新闻 > 正文

智能投资的昨天、今天和明天

发布时间: 2018-10-29 17:18   作者: 向伟   来源: 人工智能杂志

  当今时代,人工智能不单单是一项应用型科技,随着人工智能在各个行业的渗透,其实际改变的是人类的生产关系。在人工智能与各行业进行着越来越深入的融合发展的态势下,“AI+金融”成为人工智能技术落地应用的前沿领域。本文将分别从智能投研、智能投资、智能理财方向出发,结合一些智能化技术渗透的成功案例,介绍一下行业的发展现状,进而引导大家发起对于未来时代智能化发展方向的畅想。

  人工智能自上世纪以来已经发展了70多年,近年来随着各行各业大数据的兴起和AlphaGo的诞生,又一次把人工智能推上了一个新的风口。2017年中国发布了《新一代人工智能发展规划》,计划在各行各业把AI从技术推向应用。作为中国传统的财富管理行业,包括银行理财、公募基金、私募基金、券商资管、信托等,其总量加起来已经超过了100万亿元。然而我们发现行业内从机构端的投研、投资,到客户端的理财过程,大多数仍然沿用的是10年前的传统模式。

  身处大数据时代,我们面对的数据维度在日益增加。除了传统新闻报道、日益火热的自媒体,我们自身在与网络的交互活动中,也在不停地产生数据。这些新兴的互联网大数据呈现出海量性、多样性、高速性、易变性的特点,数据对于21世纪的信息化社会而言,等同于20世纪的石油,因此我们首先讨论信息化时代的变迁给投资者带来的机遇与挑战。

  另一方面,自上世纪以来,市场有效性的假说伴随着各类主动投资和被动投资产品的发展,量化投资的发展也日趋成熟,放眼当下业界日趋激烈的市场竞争格局,我们要思考如何将投资和科技进行智能化结合,以获得更佳的回报。

  此外,在如此大的市场规模下,随着客户年龄层次的变化,财富管理行业也面临巨大的挑战,如何借助新兴技术来解决资金端与资产端的匹配效率以及投后跟踪问题,变得刻不容缓。

  因此本文会分别从智能投研、智能投资、智能理财,来给读者介绍一下各个行业的现状,并以案例的方式展示一些智能化技术渗透的成功案例,进而引导读者发起对于未来时代智能化发展方向的畅想。

  一、智能投研

  智能投研的核心驱动力—大数据

  纵观海内外,对大数据的量化投资策略的研究刚刚兴起,但对互联网大数据相关的量化研究已然成为量化投资新的研究方向和热门的研究领域,采用海量的大数据来指导投资将带来新的机遇。近年来,资产管理机构积极推动科技金融的发展,用人工智能技术来提升资产管理中的研究效率。一方面,资产管理机构尝试借助人工智能技术来提升阅读研究报告和公司报表的效率。人工智能技术擅长从互联网、图像、传感器等各种渠道获取信息,这些另类信息可以给资产管理公司的投研部门提供支持。相比于传统的分析师实地调研,通过人工智能阅读公司报告和从其他另类数据中获取信息,能够大幅提升人类的工作效率与准确度。可以预期的是,随着人工智能技术应用成本的降低,这类技术将得到普遍应用,大幅降低研究员在信息获取和分析方面花费的时间成本。

  另一方面,人工智能技术具有强大的信息整合和学习功能,可以协助研究员完成不同的研究需求。例如,通过人工智能方法,研究员可以查询与当前市场环境最相似的历史场景,进而可以在不同的宏观事件或公司事件发生之后,提供有效的投资建议。接下来我们便会借助一些实际案例,来展现目前金融行业在智能投研方面的进展。

  1. 自然语言文本

  由于二级市场信息披露的要求越来越严格,金融公开信息自2000年以来已经日趋完善,国内外借着互联网信息化这股东风,涌现出了不少顶尖的数据服务公司,例如国外的Bloomberg、汤生路透,国内的万得、恒生聚源等。这些头部公司对于传统金融中的结构化数值数据的建设已经相当成熟和完善(例如宏观经济数据、上市公司经营数据和财务报表等),然而对于非结构化数据的内容整理(例如新闻、公告、研究报告等),目前还处于较为浅层次的人工采摘整理阶段(例如华尔街见闻的脱水研报)。随着近十年来,机器学习与自然语言处理技术的迅猛发展,人类分析师面对这些海量非结构化文本数据束手无策的局面,也在悄悄发生改变。

  自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向,旨在研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。用自然语言与计算机进行通信,有着十分重要的实际应用意义,也被视为解决人工智能完备程度的核心问题之一。在互联网领域,自然语言处理技术经过最近10年的发展,已经较为成熟,例如,业界对话语义识别在2016年的Switchboard对话语音识别任务中达到了人类水平,问答机器人在2017年的斯坦福问答数据集SQuAD上达到人类水平,机器翻译系统在2018年通用新闻的汉译英上达到了人类专业水平。因此我们也非常关心,这些先进的人工智能技术,对于我们智能投研中的文本信息处理,会带来哪些革命性的改变。

  1.1自动化语义分析

  在如此信息膨胀增长的年代,人类研究员往往需要花费大量的时间在消化这些信息上,经我们在行业内20多家投资机构的采样统计发现,平均每个行业研究员每天需要花费6-8小时在阅读、消化、整理这些非结构化文本资讯信息上,即便如此,平均每人能够覆盖研究的上市公司数量也只能达到30家。因此如何借助人工智能技术来帮助我们去粗取精,提升人类处理信息的效率,也是一个非常具备挑战性的问题。

  近年来,人工智能技术在自然语言的语义分析层面已经取得了不少突破性的进展。从2016年开始,谷歌开始逐渐用神经机器翻译模型取代传统基于短语的整句机器翻译模型,借助海量数据的优势,目前500行神经网络模型代码的效果已经可以取代之前50万行代码的基于短语的机器翻译模型;从2015年开始,各种形式的注意力机制被融入到自然语言处理模型中,目前已经被广泛应用于句法分析、阅读理解、单样本学习等任务中。

  虽然要让机器真正达到对语言语义完全理解的程度还需要时间,但是这些语义分析技术在当下已经可以帮助我们实现不少微观层面的辅助分析功能。图2是我们摘取的一家上市公司的年报片段,基于深度学习技术在海量数据上训练的语义近似度模型,我们已经可以较为精准地度量出章节、段落、句子、短语之间的近似度。图2展现了前后2年年报内容的文本近似分析对齐后的效果,其中灰色行代表了前后2年内容完全一致的部分;蓝色代表了前后两年语义近似,但是内容存在细微差异的部分;红色代表了前后两年新增或者删除的内容。如此一来,研究员们只需要根据不同的色块,便能够快速定位出公司在不同年份发展状况的细微差异了,相较于人工逐字逐句阅读,分析的效率得到了显著性提升。

  2.图像数据

  近年来,得益于计算机视觉技术的发展,现在硬件技术的提升使得数据处理的能力大大提高,现在对于图像的处理,对于视频数据的处理,其实已经达到了可用的阶段。图3展现了每年ImageNet网站大规模视觉识别挑战赛(ILSVRC)图像识别的结果,从2010年到2016年,在图像数量和物体种类成倍数增加的情况下,分类错误率从0.28降到了0.03,物体识别的平均准确率从0.23上升到了0.66,已经超越了普通人类的识别能力。所以我们也很关注图像识别技术在智能投研方面会带来哪些变化。

  原油市场是每天牵动全球投资者关注的市场,全球各地的原油产量和库存情况是决定原油价格最关键的因素。从“天眼”视角监测一个产地的原油储量,投资者只需要几张高分辨率卫星影像和简单的几何图形识别就可以了。具体原理是这样的,原油的巨型储油罐顶通常有一个圆形的浮盖,用以防止原油的蒸发损失。通过卫星影像,可以观测到阳光照射在储油罐时在浮盖上的阴影。通常,这个阴影的面积越大,就意味着石油储备越少,因为浮盖已经向下移动了

  这些数据都是根据储油罐的阴影来计算的,传统做法是通过人工制定规则公式来利用太阳高度角和阴影长度来计算储油罐的油量,再通过统计石油储备库的油罐数量就可以得到一个石油储备库总的石油储量。而现在借助图像识别技术,这些每天都需要进行的大量而重复的工作完全可以交给机器学习的图像识别模型来自动完成,基本上利用这样的方法能将全球80%以上的原油储量计算出来,从而结合全球的原油需求供给模型,便可对于原油期货的多空策略做出优化。

  3. 舆情数据

  一般的基本面数据、宏观数据、资产行情数据难以有效地捕捉投资者情绪。相比之下,互联网舆情数据可以及时、全面地描述投资者的情绪面。互联网舆情数据来源及范围非常广泛,通过文本数据挖掘、情感分析、用户行为分析等方法可以得到不同维度的舆情数据,如投资者对不同话题的关注度、投资者对不同事件的情感倾向、不同事件之间的相互关联等。

  舆情数据相对于其他数据的独特之处在于分散与非标准化,一方面,它是碎片化的数据聚合而成统计数据,如果单纯看其中某块数据碎片的话,并没有任何统计意义;另一方面,舆情数据又不是简单的数值化数据,因此又需要一定的自然语言处理技术将相关的数据碎片关联起来。图5展示的是互联网上对于流感舆情的关注热度的典型案例,由于流感疾病的发生在区域分布上呈现非常离散的特点,因此如果仅仅观测某个区域的流感爆发情况也很难判断出未来集中爆发的可能性,而当主流新闻媒体开始公开报导流感疫情时,往往各地流感已经进入大面积爆发的中后期了。相反,如果我们借助机器来对这些分散而高频的数据进行自动化监控,便能够非常轻松地在舆情突然爆发的早期实现预警。图6显示的是疫情疾控相关的某家上市公司股价,我们发现利用机器模型对于疫情舆情识别出来的较早的突发预警信号,能够自动通过事件驱动策略实现很好的策略收益。

  4.各类流量数据

  除了上述几种较为常规的数据,还有一些过去我们不太能够获得的数据。随着近十年来各行各业的互联网化发展,爬虫机器人和传感器技术广泛应用,很多领域流量数据的采集成本也逐步降低,例如传媒和手游行业的媒体播放量,电商、物流、OTA的商品浏览量和成交量,商铺门店内的用户GPS定位和WiFi流量,均能够从企业微观经营流量层面来评估企业未来的预期营收情况。此外,随着近年来政府对于环保等公共事业投入的增加,环保大数据的信息化程度也大大提升,对于各个垂直行业的排污监控已经精细化到每家公司的每个工厂的每个排污口,已经有券商研究所开始利用这些环保类的高频细粒度大数据来评估行业和公司的实际产能和开工率情况。

  以造纸行业为例,由于其生产过程中对于大气和水资源的污染极其严重,因此目前国内环保局对于这些排放物的级别污染监控已经细致到各县市的工厂级别,并定期在各省市环保厅网站进行公示。在传统研究过程中,如果我们仅仅依赖某一方面的数据对工业产能利用率进行推算可能会存在较大的误差。然而在大数据时代,借助机器学习技术和这些不同维度的高频大数据,我们能够从多方面精准判断各家工厂的具体开工率,再结合市场上的商品价格实时走势,我们便能够轻松推断企业当季大致的盈亏情况。

  研究表明,新时代大数据驱动的投资研究工作过程将面临巨大的挑战,一方面数据零散,另一方面数据海量高频,因此人工采集整理的成本都远远高于机器。不过,目前的自动化流量数据监控能够帮助人类实现的还只是感知智能层面的工作。未来机器往认知智能方面发展,还需要学会借助各行业的知识图谱,将这些营收和产能的状态数据按照上下游关系完整地串联起来,这样才能模仿人类做投资研究时微观与全局相结合的思维方式。

  综上所述,非结构化数据的采集、整理、分析研究、支持投资决策已经不是简单的数据处理,而是需要人工智能技术结合人类专家知识来实现信息的去粗取精。

  智能投研的智慧载体—知识图谱

  1.研究过程介绍

  数据的采集、降噪、整合仅仅是投资研究过程的第一步,当数据整理好之后,智能投资研究面临的一个更大的挑战是梳理数据。

  人工智能技术可以对获取到的信息进行深入挖掘,将不同的信息关联、整合起来,构建知识图谱,并且通过自然语言处理技术实现人机交互,服务研究工作。

  为了达到这个目的,我们需要效仿人类大脑记忆知识的方式,机器也需要有一种存储知识结构的载体。因此,接下来我们来探讨一下知识图谱对于智能投资研究的重要性。

  

       知识图谱本质上是语义网络,是一种基于“图”的数据结构,通过知识图谱建立起不同实体和事件之间的关系。图7是知识图谱的一个切片展示。通过机器学习和知识图谱,我们可以建立起每家上市公司和与其关联度最高的上下游公司、行业、宏观经济之间的关系。如果某家公司发生了高风险事件,可以及时预测未来有潜在风险的关联行业和公司;如果宏观经济或者政策有变化,也可以及时发现投资机会。从图7中我们会发现,仅仅是上市公司的知识图谱,其结构就已经超越了单层的逻辑结构,而且公司关联中的人物、数据、股权结构的关系,都具备了异构化的数据属性。此外,为了使机器具备逻辑推导能力,我们还会基于行业公司的基本知识图谱,建立各种横向和纵向的知识索引,例如,我们会根据相关主题的逻辑结构,对不同公司进行分组聚类;以时间角度作为线索,将历史上的相关事件串联起来。因此,当机器具备了这样的知识存储结构之后,便有能力将原本简单的数据有机结合起来,完成一些复杂的任务。

  2018年3月7日,美国智能投研先行者Kensho被标普全球(S&P GLOBAL)以5.5亿美元收购,这也创造了迄今为止华尔街最大规模的人工智能公司收购交易。标普成立于1860年,是世界权威金融分析机构,其数据库对于全球资本市场的信用评级、指数服务、风险评估、投研报告、行业和公司数据的建设起着重要的作用。Kensho公司成立于2013年,旗下拥有一款名为Warren的分析软件,主要利用大数据和机器学习,将数据、信息、决策进行智能整合,并实现数据之间的智能化关联,从而提高投资者工作效率和投资能力。5.5亿美元对于一家年轻、没有太多资源和资本积累的创业公司而言,是一个非常高的收购价格,那么为何标普却认为它很有价值呢?

  这源于知识图谱是Kensho的核心技术,Kensho专注于通过机器学习及云算法搜集和分析数据,然后将其组织成有序的知识图谱,并通过自然语言处理技术理解和解答复杂的金融问题。Kensho能取代部分人类知识密集型的分析工作并且从数据中学习新的知识,提供快速化、规模化、自动化的分析结果,自动分析推导海量数据对资本市场各类资产的影响,把长达几天时间的传统投资分析周期缩短到几分钟。

  例如,图8展示了Kensho对波音公司(BOEING)季报发布之后的分析结果,包括季报发布前后股价表现如何、竞争对手们的表现如何,以及相关大盘指数的表现如何。同时,还罗列了相关商品的价格走势情况。这样多角度分析结果的呈现,能够帮助投资者精准剖析出在个股基本面、行业板块景气度和市场情绪对于公司的影响中,究竟是哪一个占据了主导因素,进而决定采取什么样的应对投资策略。

  如果由人类分析师对一家公司完成这样一组分析,可能需要消耗1个小时以上的工作时间,然而当公司数量不断上升,行业数据呈超线性增长,公司关系呈平方级速度增长的情况下,由人类完成这些工作的成本会越来越高。

  而Kensho运用的人工智能算法,具有强大的机器学习能力,通过构建庞大的知识图谱来组织这些碎片化的数据,根据各类不同的问题积累经验,并逐步获得成长。因此,对于标普这样的传统数据服务商而言,Kensho的价值在于计算机知识图谱系统能够更好地将传统数据库按各个维度有机组织起来,以极快的速度读取亿万条数据或信息,在分析数据的过程中不断地进行学习,并不断地优化其分析结果,使得传统的投研服务不再是冷冰冰的数据库,而是变成更加智能高效的人机交互式投研服务。

  因此,在人力资源有限情况下,将重复冗余的工作交给机器,以便让人类的脑力更多用在具有更高信息处理附加值上的投资分析决策上,会是人机结合投资效率优化的大趋势。

  二、智能投资

  前面主要介绍的是各种大数据与人工智能技术是如何推动智能投研的发展的,接下来,我们会进一步讨论智能投资。

  投资的智能化发展史

  1.主动投资、被动投资、Smart Beta

  在讨论智能投资之前,我们需要先花点时间了解一下人类主动投资渐进到智能投资的过程。

  首先,从投资思路角度来区分,我们可以将市场上主要的投资者分为主动投资流派和被动投资流派。主动投资试图通过选股和把握市场时机等技术手段战胜市场或相关基准,而被动投资则避免主观预测,着眼于长远,致力于获得与市场整体相近的回报。主动投资会构建不同于市场的投资组合,通过积极的证券选择和时机选择努力寻求最大的投资回报,试图以此超越市场或基准指数。主动管理者认为,通过卓越的分析和研究,他们能击败市场。通常,这些管理者会根据财务数据或经济统计数据等基本面因素,对历史价格、交易量或其他指标进行技术分析,由此预测未来股价走势从而生成投资决策。

  20世纪60年代初期于美国兴起的“芝加哥学派”,有一个重要的基本核心观点——“有效市场假设”,并得到了“投资者永远无法战胜市场”的结论。从长期统计数据来看,没有哪位投资者能持续战胜市场,除非他的运气出奇的好,即使是经验最为丰富的基金经理也不可能每一次都准确预测公司的表现,甚少有主动式管理的基金能够长期地超越大盘,因而被动投资被认为是更理性的投资方式。

  最知名的被动投资方法是“指数化投资”,即完全参照基准指数的权重,买入其包含的所有证券,例如,最流行的基准指数是标准普尔500指数,该指数涵盖的500只美国大盘股占美国股市总市值的70%左右。被动投资可以被认为是以低风险、低成本、不需要主观意识的参与市场方式,也正是这样的观点,使得被动投资越来越受投资者青睐。这里并不是否认人类在主动投资过程中所创造的价值,而是从历史长期的统计样本来看,人类主动投资者能够长期保持在战胜市场的投资状态的概率会比较小。也有统计数据证明,人类主动管理的基金经理的业绩巅峰期大约是在35~40岁附近,这也恰好是人类知识阅历成长与个人精力均衡的巅峰时期,这也可以从侧面解释为何主动管理者的业绩很少能够始终战胜市场的现象。

  主动与被动之间并不是互相否定的,从海外市场发展来看,被动投资理念和主动投资理念已经相互融合。从投资者的角度出发,合理的资产配置是比较关键的,被动和主动投资二者配置可谓一对“黄金搭档”,二者的有机结合有利于资产配置效果的改善。主动管理的方法,为效率较低的资产类别提供了一个超越市场的更大机会,而被动投资方式可能更适合高效率的资产类别。例如,美国大型股票在华尔街分析师的吹捧下,很难分辨那些被低估的公司,对于这种高效率的资产类别,被动投资方法在某些情况下可能是适当的,而且可能会更有效。相比之下,新兴市场的股票普遍缺乏研究,难以评估,这为主动投资管理者提供了更多的机会来识别公司,关键是要认识到差异,然后做出正确的选择。

  随着时间的发展,被动投资的思路也不仅包括指数基金和指数ETF,还包括根据投资组合构建规则而进行投资的“聪明贝塔”(Smart Beta ETF)。“聪明贝塔”ETF的设立是为了满足或创造公众对于特定领域基金的需求,例如,各股票类别(价值型或增长型)、股票特征(低波动性或优质企业)以及企业类型或地区。无论投资者想要专注于增长型、价值型、优质企业、低波动性还是动量ETF,都可以找到合适的ETF。一旦完成组合建立,这些基金将严格按照既定目标维持组合组成。因此“聪明贝塔”本质是一种人工语义型的被动投资。

  2.定性投资vs定量投资

  按照投资的方式来分,主要有定性投资和定量投资两类,定性投资主要指根据对于上市公司的调研以及基金经理个人经验和主观判断来做出投资决策,而定量投资则是基于定性思想的量化应用,更加强调基于数据实验来量化数据以作为支持投资决策的证据,因而又称为量化投资。如上文所述,由于被动投资相对于主动投资更倾向拒绝风险暴露,因而在弱有效市场上也会错过一些由于主动暴露某些风险而带来的收益。因此,量化投资实际上是根据人类主动投资的思想,结合统计实验结果,定量地增加投资组合在某些方向的主动风险暴露来换取主动收益的投资方法。

  智能投资的起点—量化因子来复制历史经验

  投资管理人对历史上的一段时期进行研究,发掘与优异回报相关的某些因素,这些因素往往具备一些特征,例如价格、质量、规模和动量,在量化投资中,我们将这些特征称为因子。或许在过往某一特定时期,表现最出色的股票具有价值高、优质、市值大和近期正在升值及“动量”等特征。投资管理人认为,其管理的投资组合应该包含具备此类特征并排名较高的股票。投资管理人通过让计算机搜索拥有最多这些特征的证券来进行投资。例如,计算机可能会根据各种衡量指标来搜索价值,包括市盈率、企业价值/EBITDA比率、市净率和价格对自由现金流的比率,以及特定行业指标,比如石油企业的油价对石油储备比率。

  图9和图10分别展示了在港股和A股这两个不同市场上,各类因子暴露下策略组合的效果。在港股这样强有效的成熟市场上,我们发现分析师预期、动量、价值因子的长期效果较好;在A股这样弱有效的新兴市场上,我们发现小市值因子在2017年之前的效果最为显著,但在之后发生较大回撤,而动量因子则比成熟市场的效果弱了很多。

  从本质上讲,量化投资从历史数据中提炼因子的过程,实际上是一个信息压缩的过程,将不同的个股的历史特征序列,压缩到一个共同的因子空间里。这样一来,如果我们想预判一只股票当下的潜在风险和收益,我们只需要看看其在因子空间内的位置,如果这些因子的历史规律没有发生太大变化,我们就可以参考其在历史类似因子空间位置的表现,并以此作为依据来预测未来。实际上,相较于围棋或其他领域,AI在金融领域的应用更加困难,一大原因就如前文所述,金融领域的原始数据信噪比是相当低的,无法直接用来刻画市场状态,而围棋的棋局状态则可以非常容易地用棋盘上对弈方的兵力坐标分布来刻画。所以量化投资和主动投资虽然都是由人脑来提供投资思路,但是主动投资更多是人脑主观意识上的历史经验总结,而且在这个总结的过程中,很难剥离出个人实力和运气成分;相反,量化投资提炼因子的过程实际上是用科学的实验手法来定义市场状态的过程(类似于画一个围棋棋盘),而且为了剥离运气的偶然性,我们构建因子集合的时候会利用统计实验的方法,来对于因子的历史风险和收益分布的均衡性和稳定性进行一些约束,经过这些约束测试的因子构建出来的状态空间,我们才认为其风险和收益预期分布是具备可复制性的。

  量化投资相对于定性投资的优势在于,其在因子建模的过程中融入了很严格的对于风险的一些考量,在市场发生一些不确定变化的时候,其预期超额收益的回撤,会被限定在一定可控的水平之下。

  量化投资的成功是充分利用了计算机处理大量数据的能力,并且避免了人为错误,同时能够实时地根据市场的变化做出不断的再平衡来均衡风险与收益。

  以上内容精选于《人工智能》杂志第六期

  本文作者

  向 伟

  现任浙商基金助理基金经理,资深量化研究员,博士毕业于香港科技大学计算机系AI实验室。曾创立华大基因弹性计算实验室;后任百度个性化搜索负责人,创立机器学习深圳分部;通联数据智能投研总监,萝卜投研创始人。致力于人工智能技术在各个垂直领域的应用,有15年研究和实战经验,目前也是国内量化基本面研究和智能投资的推动者。

  欲阅读完整文章,可通过以下方式购买《人工智能》杂志!

  订阅2018年《人工智能》杂志6期共计360元

  银行转账:北京赛迪出版传媒有限公司

  开户行及账号:中国建设银行股份有限公司北京紫竹桥支行11050170560000000152

  银行转账,请备注:人工智能

  接收详细信息请发到:aiview@ccidmedia.com;或是添加客服微信:13601092749

收藏