已解决 MemoryError 异常的正确解决方法，亲测有效！！！

在进行数据分析、机器学习或处理大型数据集时，你可能会遇到一个常见的问题——MemoryError。这个错误通常发生在尝试加载或处理大量数据时，系统的可用内存不足以完成操作。本篇文章将详细分析这个问题的原因，并提供一种实际可行且亲测有效的解决方案。

问题分析

MemoryError 异常通常表明 Python 解释器内存不足，无法完成当前的操作。出现这个问题的场景包括但不限于：

加载大型数据集到内存中进行处理。

在数据处理过程中创建大量的临时对象。

运行复杂的数据处理算法，这些算法需要大量的内存空间。

例如，当你尝试使用 Pandas 库读取一个非常大的 CSV 文件时：

import pandas as pd # 尝试加载一个非常大的数据集df = pd.read_csv('large_dataset.csv')

复制代码

如果文件 large_dataset.csv 非常大，这段代码可能会导致 MemoryError 异常。

MemoryError 的主要原因是 Python 程序请求的内存超过了系统能够提供的内存。可能的原因包括：

1.物理内存不足：你的计算机或服务器的物理内存（RAM）不足以处理当前的数据处理任务。

2.虚拟内存不足：即使物理内存足够，操作系统分配的虚拟内存也可能不足。

3.内存泄漏：程序中存在内存泄漏，导致可用内存逐渐减少。

针对 MemoryError，我们可以采取以下策略来解决问题：

1.减少内存使用：尝试优化代码，减少一次性加载到内存中的数据量。

2.使用更高效的数据结构：某些数据结构可能比其他的更加内存高效。

3.增加可用内存：增加物理内存或调整操作系统的虚拟内存设置。

4.分批处理数据：将大型数据集分成小批量进行逐个处理。

根据以上思路，以下是具体的解决步骤：

1.优化代码减少内存使用：检查代码，尽可能使用内存高效的操作。例如，如果你正在使用 Pandas 处理大型数据集，考虑使用 chunksize 参数分批读取文件：

chunk_size = 10000  # 定义每个数据块的大小chunks = pd.read_csv('large_dataset.csv', chunksize=chunk_size)for chunk in chunks:    # 对每个数据块进行处理    process(chunk)

复制代码

2.使用更高效的数据结构：在可能的情况下，使用更高效的数据结构。例如，使用 Pandas 的 Categorical 数据类型存储重复的字符串数据。

3.增加可用内存：增加物理内存：如果可能，增加计算机的物理内存（RAM）。调整虚拟内存设置：在 Windows 系统中，可以通过“控制面板”调整虚拟内存设置；在 Linux 系统中，可以通过增加 swap 空间来实现。

4.分批处理数据：如果数据集太大，不可能一次性加载到内存中，尝试将数据集分成更小的部分，逐个加载和处理。

MemoryError 是在处理大型数据集时常见的问题，通过优化代码减少内存使用，使用更高效的数据结构，增加可用内存，以及分批处理数据，我们可以有效地解决这个问题。希望本文能帮助你在面对内存限制时，能够更加灵活和有效地处理大型数据集。

发布于: 刚刚阅读数: 3

关注

InfoQ签约作者/技术专家/博客专家 2020-03-20 加入

🏆InfoQ签约作者、CSDN专家博主/后端领域优质创作者、阿里云专家/签约博主、华为云专家、51CTO专家/TOP红人 📫就职某大型金融互联网公司高级工程师 👍专注于研究Liunx内核、Java、源码、架构、设计模式、算法

发布

暂无评论