"也许不久之后,当我们考虑高科技驱动的产业领域时,首先想到的就是银行业。"
当我们考虑高科技驱动的行业时,银行业往往不是我们首先能想到的。然而,当我们考虑大数据的3V(大数据量、速度和多样性)时,很难找到哪个行业的需求比银行业更契合这些标准了。例如,仅在2016年4月份,外汇(ForEx)市场每天平均为5.1万亿美元。 ForEx市场提供世界各地货币之间的实时汇率,促进全球业务和融资。
在本文中,我将讨论大数据方法和金融领域的相关性,概述了面对的挑战以及未来的技术机会。由于其交易和金额,我专注于企业银行业务(金融市场,企业信贷,贸易等),尽管许多其它应用领域也与消费金融有关。
金融领域的大数据
我们首先来看看大数据3V特征和金融的相关性:
体量(Volume):一般认为大数据需要达到多TB甚至PB数据的数据级别。金融业产生大量报价、市场数据和历史贸易数据,纽约证券交易所(NYSE)每天写入超过1TB。
速度(Velocity):一般当数据存储或处理达到每秒钟100次交易以上时,适用大数据。以这种速度生成数据对于金融市场来说属于正常。
多样性(Variety):意味着大数据算法对各种格式和数据源都能处理好。在企业银行业务中,金融机构需要处理基础数据(例如用户信息),贸易和市场数据以及从客户端发来的请求(电子和语音方式)数据等许多资料。
从大数据的角度看,金融领域更有意义的是,新的业务模式不断涌现,将新的数据源和更复杂的指标带入金融系统。这也使得该领域成为数据科学家非常感兴趣的地方。
如前所述,ForEx市场每天24小时都有交易,从悉尼早上到纽约的晚上,只有周末的一小段时间除外。此外,算法交易已经在金融市场上长期以一种或多种形式使用,纽约证券交易所在20世纪70年代初推出了指定订单周转(DOT)系统,用于将订单路由到交易台,手工执行订单。现在,算法交易系统将非常大的订单分成较小的部分,根据时间、价格和数量自动执行,针对市场参数进行了优化。长期以来,大数据处理也被应用于金融机构的报表系统:
银行和金融市场越来越需要计算各种复杂指标,如XVA(衍生工具的估值调整,基于对手方信用风险,资金成本,利润率等)。例如,使用这样的指标来设定银行的最小资本储备,直接影响银行的盈利能力。
对按时间排序的交易数据进行分析,以模拟市场和客户行为。例如,监测贸易量随着时间的变化有助于预测信贷违约的可能性,从而减少银行在贷款业务上的损失。
一些大型金融机构引入大数据进展缓慢,普华永道的市场调研也指出了一些这类机构在组织和文化上的局限性因素。一些金融行业的经理认为,大数据算法解决了技术问题,而不是业务问题。有些人不了解如何从数据流中获得价值。然而事实证明,当业务生成数据,并将分析结果应用于业务时,显然这些技术是支持了业务提升的,大数据方法可以提供的深刻分析可以直接支持业务增长和提高效率。金融领域传统上并不是数据科学家的关注点,所以有些机构很难寻找和吸引到自身所需要的大数据技术。即使有变革的意愿,也许不清楚如何和在哪里开始转型来利用大数据。
不过,根据IDC最近的一项研究,银行业是投资大数据分析的顶尖行业之一,如图1所示。
图1. 2016年大数据分析市场行业占比(1301亿美元)(IDC)
此外,金融技术公司正在为银行需求开发一系列的资产和财富管理的解决方案和产品。
图2展示了普华永道提供的金融技术公司在各个技术方向的比例。
图2. 金融技术市场细分(普华永道)
遵循这一趋势,围绕金融数据的、以增加业务效率为目的的研究和算法开发越来越多,接下来我们就来看一下。
市场交易模式
市场交易模式的适用场景是可以为买卖某些类型资产的投资策略提供分析参考,本节探讨一个例子。
除息日(也称为X日)是存托凭证(DR)的卖方有权收到最后一个股息支付的首个交易日。在X日之前,DR的买方将收到股息支付。美国DR(ADR)是非美国公司在美国市场上交易的金融工具。因此,股息需要承担双重的税收负担:美国税收和发行ADR的国家的预提税款。因此,投资者有兴趣在X-Day之前出售ADR,并在X-Day后进行购买。当然,税收政策对ADR市场的稳定性有很大的影响。
在近期的工作中,我们审议了ADR市场,了解市场交易量。根据最近的市场数量,可以使用这种类型的算法对这些市场进行分析来建议最佳交易时间。分析了除股息期间(X日+/-10天)的ADR量(日交易量减去"正常"日交易量)的过剩比例,与股息税率呈正相关关系,提供税收模式政策对ADR市场的影响。交易商和政府税务机关都可以利用这些模式来制定政策。
实时信用评级
一个不属于金融市场但与消费者和中小企业银行业务相关的应用程序正在处理数据,以便为申请人实时提供信用评分。例如,FinTech公司,如Klarna,Lenddo和Credit Karma提供与在线信用评分和验证相关的服务。
任何申请了大量信贷的人都会熟悉该流程的时间表。传统上,银行从申请表和其他来源收集有关申请人的信息。专家分析这些信息,为客户创建信贷计划,其中包括利率和还款条件。申请人和银行之间可能会有一些协商,包括各种贷款参数之间的权衡,以获得更好的整体利益。信用合同签订后,客户可以从事其财务活动,进一步偿还贷款。
数据收集和条款谈判不仅需要时间,而且两个因素使图片复杂化。首先,许多用于信用评级的中央数据存储只能每月更新一次,因此客户最近的财务问题无法被感知。此外,非金融因素可能在违约风险中发挥作用。作者研究了一些与大型电子商务平台有关的因素:登录平台的频率,提供额外的联系人数据(包括手机号码),上个月交易量,成功交易总数,成为平台注册用户的时间,客户的业务部门等。作者对这些历史数据分组并进行线性回归分析,以得出默认概率与各种参数之间的相关性。结果是可以根据在线行为促进电子商务平台的实时信用评级的模型。这些参数甚至不存在于传统的中央信用评级数据库中。
银行业变得更加高科技
所描述的两个例子对于大型数据算法在金融领域的应用绝不是极限。虽然没有人可以预测百分之百的未来市场,但对历史数据和当前市场参数的深入分析提供了复杂的、自适应的市场倾向和行为模型。反过来,这种模式便于交易者(包括交易系统)、金融机构和其他参与者更好地了解和更快速的决策。
IT从业者的机会是为快速增长的行业开发新技术和解决方案。在2014年至2015年6月期间,FinTech的融资额翻了一番以上,表明这些产品和解决方案的机会和需求。图2所示的广泛性为产品、流程和客户体验创造了很大的空间。不久之后,当我们考虑高科技驱动的产业领域时,可能首先要想到的就是银行业。