3 本书免费学习数据科学与统计学
免费学习数据科学所需的所有统计信息
统计是数据科学家每天使用的一项基本技能。这是数学的分支,它使我们能够收集,描述,解释,可视化并对数据进行推断。数据科学家将使用它进行数据分析,实验设计和统计建模。
统计对于机器学习也至关重要。之后我们将升利用统计资料来了解在训练前一个模型的数据。当我们抽取数据样本进行训练和测试时,我们需要采用统计技术来确保公平。在评估模型的性能时,我们需要统计信息来评估预测的可变性并评估准确性。
“如果统计数字很无聊,您的数字就是错误的。”爱德华·塔夫特(Edward Tufte)
这是书籍可以成为特别有用的学习工具的领域,因为对统计概念的详细解释对于您的理解至关重要。
数据科学家实用统计
彼得·布鲁斯(Peter Bruce)和安德鲁·布鲁斯(Andrew Bruce)
涵盖的主要主题:
数据结构。
描述性统计。
可能性。
机器学习。
适用于:完整的初学者。
统计是一个非常广阔的领域,其中只有一部分与数据科学有关。这本书非常擅长仅涵盖与数据科学相关的领域。因此,如果您正在寻找一本可以快速使您足够理解以能够实践数据科学的书,那么这本书绝对是您的选择。
它充满了许多实用的编码示例(用 R 编写),对所使用的任何统计术语都给出了非常清晰的解释,并且还链接到其他资源以供进一步阅读。
总体而言,这是一本涵盖基础知识的优秀书籍,非常适合该领域的初学者。
思维统计
艾伦·唐尼(Allen B.Downey)
统计思维。
分布。
假设检验。
相关性。
适用于:基本 Python 的初学者。
本书的引言指出“这本书是关于将知识转化为数据”,并且它通过数据分析的实际示例很好地介绍了统计概念。
“这本书是关于将知识转化为数据的”
这是另一本书,仅涵盖与数据科学直接相关的概念,并且还包含许多代码示例,这次都是用 Python 编写的。它主要面向程序员,并依靠使用该技能来理解所介绍的关键统计概念。因此,这本书非常适合那些已经至少掌握 Python 的人。
Think Stats 是面向 Python 程序员的概率与统计简介。
Think Stats 强调可用于探索真实数据集并回答有趣问题的简单技术。该书使用美国国立卫生研究院的数据进行了案例研究。鼓励读者从事具有真实数据集的项目。
如果您具有 Python 的基本技能,则可以使用它们来学习概率和统计方面的概念。 Think Stats 基于用于概率分布(PMF 和 CDF)的 Python 库。许多练习使用简短的程序来运行实验并帮助读者加深理解。
大多数入门书籍都没有涵盖贝叶斯统计,但是 Think Stats 是基于贝叶斯方法太重要而无法推迟的思想。通过利用 PMF 和 CDF 库,初学者可以学习概念并解决具有挑战性的问题。
计算机时代统计推断
布拉德利·埃夫隆(Bradley Efron)和特雷弗·哈斯蒂(Trevor Hastie)
涵盖的主要主题:
贝叶斯和常客推断。
大规模假设检验。
机器学习。
深度学习。
适用对象:对统计和统计符号有基本了解的人。无需编程。
本书涵盖了当今数据科学家使用的大多数流行的机器学习算法背后的理论。它还彻底介绍了贝叶斯统计和统计推断方法。本书的下半部分介绍了机器学习算法,是我在该主题上看到的最好的材料。每种解释都是深入的,并使用了实际示例,例如垃圾邮件数据的分类,这使相当复杂的想法更易于理解。这本书最适合已经介绍了数据分析统计基础知识并且熟悉一些统计符号的读者。
关注微信公众号“计算机与 AI”,后台私信 20201203 即可获取 PDF 百度网盘下载链接。
版权声明: 本文为 InfoQ 作者【计算机与AI】的原创文章。
原文链接:【http://xie.infoq.cn/article/3133d8e15f637c0764597624d】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论