大型文件和大数据 -凯发k8网页登录
访问和处理文件集合以及大型数据集
大型数据集可以是现有内存无法容纳的大型文件,也可以是需要很长处理时间的文件。大型数据集也可以是许多小型文件的集合。大型数据集的处理无法通过单一方法来完成,因此 matlab® 提供了多个用于访问和处理大型数据的工具。
首先创建一个一次可访问小部分数据的数据存储。您可以使用数据存储管理数据的增量导入。要使用常见 matlab 函数(如 mean
和 histogram
)分析数据,请基于数据存储创建一个 tall 数组。对于更复杂的问题,您可以编写一个 mapreduce 算法,用于定义数据的分块和归约。
类别
读取大型数据集合
行数太多而无法载入内存的数组
用于分析无法载入内存的数据集的编程方法
在不载入内存的情况下访问和更改变量
读取和写入 parquet 文件
将文件数据映射到内存中以便更快速地进行访问