1.1 面向财经领域的数据分析

随着互联网的高速发展,大数据时代已经到来,麦肯锡全球研究所给出的大数据的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和低价值密度四大特征。大数据无处不在,应用于各个行业,包括金融、汽车、餐饮、电信、能源、体育和娱乐等社会各行各业都已经见到融入大数据的印迹。

大数据是信息技术发展的必然产物。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。信息化新阶段开启的另一个重要表征是信息技术开始从助力社会经济发展的辅助工具向引领社会经济发展的核心引擎转变,进而催生一种新的经济范式——“数字经济”。经过几十年积累和储备,数据资源大规模聚集,奠定了数字经济发展的坚实基础。在新一轮科技革命和产业变革浪潮下,我国政府高度重视数字经济发展。数字经济是指以使用数字化的知识和信息作为关键生产要素、以现代信息网络作为重要载体、以信息通信技术的有效使用作为效率提升和经济结构优化的重要推动力的一系列经济活动。十九届四中全会首次将数据与劳动力、技术、资本等一起作为生产要素。数据交易和获取数据是数字经济时代的重要环节,要充分挖掘数据这一要素的价值,数据分析成为重要的工作。

数据分析是建立在数学计算以及计算机基础上,对目标数据进行清洗、探索、建模,识别数据中存在的规律。数据分析结果不仅可以为企业单位或者个人进行决策提供数据支持,也可以用于公共医疗卫生领域。例如,谷歌推出的流感趋势工具,该工具利用搜索数据实时预测流感暴发。通过分析与流感症状和治疗方法相关的搜索查询,该工具能够预测传统健康监测系统预测不到的流感暴发(Ginsberg et al.,2009)。

本书聚焦金融领域的数据分析任务,在介绍数据分析工具的基础上,紧密结合金融场景,书中有大量金融数据分析案例,针对性强,更加顺应如今学科交叉的趋势,为“新金融”领域的读者提供更高效的学习途径。

金融业是一个持续发展的行业,金融业正在使用数据分析,以最大程度地减少管理各种金融活动所耗费的精力和时间。大数据的出现为金融大数据分析提供了进步发展的动力,使得金融领域可以利用数据分析和机器学习原理的力量。金融领域的典型数据如表1-1所示。

表1-1 金融领域的典型数据

金融领域的数据分析正在发展为一个多学科领域,为金融行业带来了新的机遇。量化交易是金融数据分析的一个重要分支,量化交易是指以先进的数学模型替代人为的主观判断,利用计算机技术从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略,极大地减少投资者情绪波动的影响,避免在市场极度狂热或悲观的情况下做出非理性的投资决策。除了在量化交易领域应用数据分析,企业风险预警也可以使用数据分析。