- Python医学实用统计分析
- 潘兴强 陈根浪主编
- 1460字
- 2025-03-18 19:11:04
前言
在互联网上有句流行语:“人生苦短,我用Python!”Python是什么?作为一名非信息技术(information technology,IT)领域的卫生专业技术人员,我的理解是:Python是一种通用编程语言,可以做很多事情,如机器学习、数据分析、网站开发和运维等。用于医学统计分析的软件已有SAS、STATA、SPSS和R等,为什么还要Python呢?第一,Python可以免费使用;第二,它在数据处理、清洗和机器学习等方面有一定优势,尤其在数据前期处理方面可以节省大量时间。
对医学领域工作者而言,编程是一件“痛苦”的事情。尽管Python是公认的较为接近自然语言的编程语言之一,被普遍认为是较好学习的通用编程语言,但是面对Python编程基础书籍,很多人仍然望而却步。此外,有关数据清理和机器学习等方面的书籍和资料非常丰富,但是在医学统计学领域,数据分析多是为了从样本推断总体,而介绍Python在这方面应用的相关书籍较少。因此,我们编写了这本《Python医学实用统计分析》,以帮助医学领域工作人员学习、掌握此编程语言。
本书主要介绍与数据分析有关的语法基础,针对性强,帮助读者快速入门,譬如在第2部分重点介绍了Python最基础的语法、特征以及数据分析所需要的一些基本语法。Python可以通过多个库、多种方法实现相同目的,如实现线性回归可以用sklearn、statsmodels等库,实现生存分析可以使用lifelines、pysurvival、statsmodels等库,并且存在很多代码不统一的情况,这会给初学者带来困惑。针对这个问题,本书主要使用Scipy库来实现假设检验,使用statsmodels库来拟合统计模型,并且尽量使用简洁的代码来完成数据分析,譬如在第7部分中介绍了利用Pandas库同步完成数据清洗和统计图绘制,减少代码书写量,提高数据分析效率。
本书的编写突出实用性,注重数据前期处理与医学统计分析相结合;按照资料类型介绍统计学方法,有利于读者在实际数据分析中快速查找对应的统计学方法;在介绍每种统计方法时,强调适用条件,提供最完整的代码,注重统计结果的解释,突出实用性和可操作性,以达到降低数据分析难度的目的。
第1、2部分主要介绍Python的安装与环境配置、Jupyter Notebook的使用方法以及Python的基本语法。书中推荐了最简便的Python安装和Jupyter Notebook使用方法,读者可根据内容提示,花较少的时间快速入门;提供了较为详细的Python环境配置、Jupyter Notebook使用的方法等,想进一步深入了解的读者可以详细阅读。第3~6部分主要介绍数据集创建与清洗的相关代码与技巧,读者可以按书中的代码逐行输入,体会Python语言的特点,掌握数据集创建等基本方法。其中,通过网络爬虫创建数据集部分虽然只介绍了网络爬虫的入门方法,但也能实现爬取一些网站的有用数据。第7~14部分主要介绍数据描述与可视化,以及医学统计学方法与模型拟合等内容,每部分代码都是独立的,读者可以根据需要查阅,可以按照书中的代码“依葫芦画瓢”实现统计分析。
本书提供了部分案例数据,读者可以扫描二维码下载,练习代码的使用。需要说明的是,本书使用的Python版本为3.8,Pandas库版本为1.3.5,Scipy库版本为1.7.3,Matplotlib库版本为3.5.0,Statsmodels库版本为0.13.0,建议读者使用不低于此版本的Python和相关库运行此代码。此外, Windows用户在读取文件路径时需要在路径前添加“r”或在路径中使用“\\”(详见3.4.1 Pandas读取Excel数据)。
本书可以作为高等院校师生的医学统计学教材,从事数据分析和数据管理工作人员的参考用书,以及医学领域科研人员、卫生专业技术人员的统计学工具书。
最后,感谢宁波市疾病预防控制中心许国章教授及浙大宁波理工学院对本书的支持,感谢宁波市疾病预防控制中心慢性非传染性疾病防制所提供案例数据,感谢各位编委对本书编写工作的辛勤付出。由于编者水平有限,编写时间仓促,书中难免存在一些疏漏和不足的地方,敬请广大读者提出宝贵意见。

Python医学实用统计分析数据下载说明
潘兴强
2022年10月