- Python数据分析
- 王俊主编
- 1902字
- 2025-03-13 17:28:13
1.2 数据分析工作流程与案例赏析
1.2.1 数据分析的工作流程
1.提出问题
任何时候,包括在人工智能时代,提出问题更加重要,特别在评估所研究问题的重要性和创新度时。例如,如何有效地评估中国GDP增长量?
数据分析工作不是一个单向的流程,而是一个有回路的过程,例如:在结果分析与应用环节,可以获取各个利益相关者的反馈,从而修正、改进模型,或者提出新的数据分析问题。此外,在数据探索性阶段,也可能发现有趣的问题和假说,从而修正原有的研究问题。
2.收集数据
根据提出的问题,通过多种方式获取数据,例如:编程抓取数据、购买第三方数据服务商的数据、使用国家统计局数据库等。为了评估GDP增长量,李克强在2007年任职辽宁省委书记时,喜欢通过用电量、铁路货运量和银行贷款发放量三个指标分析当时的辽宁省经济状况。英国《经济学人》杂志在2010年推出用于评估中国GDP增长量的指标,即“克强指数”(Li Keqiang Index),该指数是三种经济指标“工业用电量新增”“铁路货运量新增”“银行中长期贷款新增”的结合。
3.数据预处理
对收集到的数据进行预处理,包括数据清洗(如处理缺失值、重复项、异常值)、新变量的计算(也称为特征工程)、数据合并、数据标准化等。
数据收集和预处理环节可能会占用大量的时间,因此要重视数据资产的价值。此外,构建并开源独特的数据集也会受到业界认可。例如,Fei-Fei Li(李飞飞)使用亚马逊的Mechanical Turk众包平台协助构建的ImageNet数据集,极大地推动了计算机视觉研究的进展。
4.建模分析
数据分析人员应做探索性分析,即使用汇总统计信息、数据可视化工具和相关性分析数据的初步规律;然后选择合适的模型做预测或者进行假设检验。预测类型的建模强调模型的预测能力,而计量经济模型强调模型的因果关系解释(Shmueli and Koppius,2011)。数据分析人员不仅应注重理论价值(例如假设检验显著性),而且要评估模型的实际影响(例如模型的预测能力),同时要评估模型的稳健性、外推能力和参数敏感性。
5.结果报告与应用
报告数据分析结果,模型部署与应用。这个环节需要注意使用合适的可视化工具来讲述数据分析故事。
为了更好地理解数据分析的步骤,读者可以在金融或管理学高水平期刊上阅读一篇使用实证分析或者机器学习模型的论文,结合本小节内容,学习论文中的数据分析步骤。
1.2.2 数据分析的案例赏析
在掌握数据分析工作流程的基础上,我们自主搭建了数据分析的应用系统,聚焦证券市场量化交易、企业风险智能识别与预警系统,以下是两个系统的介绍,读者可以通过链接访问相关网站。
1.量化交易:Stock++证券市场风险量化分析系统
Stock++证券市场风险量化分析系统由本书作者以及研究团队成员构建研发,是以最新科研成果为基础的证券市场投资顾问智能化分析平台(见图1-1、图1-2)。Stock++证券市场风险量化分析系统构建了基于大数据和人工智能的公司价值分析机制、证券市场智能预测和金融文本价值大数据挖掘的“三位一体”平台,汇集海量、多源金融数据,深度聚焦证券市场领域的风险识别、风险预警、风险管理体系等热点问题,充分运用知识图谱、大数据挖掘算法和深度学习等方法,将金融学理论与人工智能算法有机结合,探索上市公司之间的动量溢出效应。

图1-1 Stock++首页

图1-2 Stock++的部分功能
该系统将先进的大数据、人工智能技术集合于一身,为用户提供精准可靠的投资辅助,与其他同类型的系统相比,该系统的技术优势在于:①从上市公司的新闻共同曝光度、行业归属、同涨同跌等属性中提取相关关系,并基于图神经网络构建上市公司的关联关系网络,揭示上市公司之间的隐含关联性;②利用先进的自然语言处理技术,从新闻文本、公司公告、财务报表等非结构化数据中提取证券市场的影响因子,探究在非结构化数据的外因冲击下,证券市场价格变动的深层次原因;③特别地,该系统数据库具有覆盖范围广、覆盖时间长、数据类型多样化的特点。迄今为止,该系统数据库已经涵盖了2005—2020年,中国沪深市场的4181只股票,包含全部上市公司的历史行情数据、分钟级高频数据、上市公司公告数据,以及新闻文本数据。
读者可使用游客登录的方式探索Stock++的更多功能,网址为http://ficstock.swufe.edu.cn/sub-vue/home。
2.企业风险智能识别与预警系统
企业风险智能识别与预警系统通过智能爬虫技术,获取海量的企业工商注册、运营、财务、舆情新闻等数据,利用先进的自然语言处理技术与深度学习模型,构建基于大数据视角的企业风险智能预警与防控平台,致力于生成和量化非结构化数据指标、挖掘企业之间的关联关系,在此基础上解析企业风险传播路径,挖掘关键企业风险节点,有效捕捉企业风险,为政府监管、融资机构自律、企业自治提供企业风险分析决策支撑,实现具有落地应用能力的产学研成果(见图1-3)。

图1-3 企业风险智能识别与预警系统功能介绍
读者可使用游客登录的方式探索企业风险智能识别与预警系统的更多功能,网址为http://list.intelligentstock.cn/#/login?redirect=%2Fmap。