技术干货| 如何在 MongoDB 中轻松使用 GridFS?
GridFS是用于存储和检索超过 16 MB大小限制的BSON文档文件的规范。
注意
GridFS 不支持多文档事务
相较于将一个文件存储在单条文档中,GridFS 将文件分为多个部分或块[1],并将每个块存储为单独的文档。默认情况下,GridFS 使用的块默认大小为 255kB;也就是说,除最后一个块,GridFS 会将文件划分为 255 kB 的块。最后一个块只有必要的大小。同样,最后的那个块也不会大于默认的块大小,仅使用所需的空间以及一些其他元数据。
GridFS 使用两个集合来存储文件。一个集合存储文件块,另一个集合存储文件元数据。 GridFS集合一节详细介绍了每个集合。
当你从 GridFS 查询文件时,驱动程序将根据需要重新组装该文件所有的块。你可以对 GridFS 存储的文件进行范围查询。你还可以从文件的任意部分访问其信息,例如“跳到”视频或音频文件的中间。
GridFS 不仅可用于存储超过 16 MB 的文件,而且还可用于存储您要访问的任何文件而不必将整个文件加载到内存中。另请参阅何时使用GridFS。
什么时候使用 GridFS
在 MongoDB 中,使用GridFS存储大于 16 MB 的文件。
在某些情况下,在 MongoDB 数据库中存储大型文件可能比在系统级文件系统上存储效率更高。
如果文件系统限制了目录中文件的数量,则可以使用 GridFS 来存储所需数量的文件。
当你要访问大文件部分的信息而不必将整个文件加载到内存中时,可以使用 GridFS 来调用文件的某些部分,而无需将整个文件读入内存。
当你希望保持文件和元数据在多个系统和设施之间自动同步和部署时,可以使用 GridFS。使用地理分布的复制集时,MongoDB 可以自动将文件及其元数据分发到多个mongod实例和设施。
如果您需要对整个文件的内容进行原子更新,请不要使用 GridFS。或者,您可以存储每个文件的多个版本,并在元数据中指定文件的当前版本。上传文件的新版本后,您可以原子更新元数据中指示为“最新”状态的字段,然后在需要时删除以前的版本。
此外,如果文件均小于 16 MB BSON文档大小限制,请考虑将每个文件存储在单个文档中,而不是使用 GridFS。您可以使用 BinData 数据类型存储二进制数据。有关使用 BinData 的详细信息,请参见驱动程序文档。
使用 GridFS
要使用GridFS存储和检索文件,请使用以下任一方法:
MongoDB 驱动程序。请参阅驱动程序文档,以获取有关将 GridFS 与驱动程序一起使用的信息。
mongofiles命令行工具。有关文档,请参见mongofiles参考。
GridFS Collections
GridFS将文件存储在两个集合中:
GridFS 通过使用存储桶名称为每个集合添加前缀,将集合放置在一个公共存储桶中。默认情况下,GridFS 使用两个集合以及一个名为 fs 的存储桶:
fs.files
fs.chunks
您可以选择其他存储桶名称,也可以在一个数据库中创建多个存储桶。完整集合名称(包括存储桶名称)受命名空间长度限制。
块集合
块[1]集合中的每个文档都代表了 GridFS 中表示的文件的不同的块。此集合中的文档具有以下格式:
chunks 集合中的文档包含以下字段:
chunks._id
块的唯一ObjectId。
chunks.files_id
在
files
集合中指定的“父”文档的_id
。chunks.n
块的序列号。GridFS 从 0 开始对所有块进行编号。
chunks.data
块BSON二进制类型的荷载。
文件集合
文件集合中的每个文档代表 GridFS 中的一个文件。
files
集合中的文档包含以下一些或全部字段:
files._id
该文档的唯一标识符。
_id
是您为原始文档选择的数据类型。MongoDB 文档的默认类型是BSON ObjectId。files.length
文档的大小(以字节为单位)。
files.chunkSize
每个块的大小(以字节为单位)。GridFS 将文档分为大小为
chunkSize
的块,最后一个除外,后者仅根据需要而变大。默认大小为 255 KB。files.uploadDate
GridFS 首次存储这个文档的日期。此值为有
日期
类型。files.md5
过期
FIPS 140-2 禁止使用 MD5 算法。MongoDB 驱动程序已弃用 MD5 支持,并将在未来版本中删除 MD5 的生成。需要文件摘要的应用程序应在 GridFS 外部实现它,并将其存储在files.metadata中。
filemd5命令返回的完整文件的 MD5 哈希。此值为字符串类型。
files.filename
可选的。GridFS 文件的可读名称。
files.contentType
过期
可选的。GridFS 文件的有效 MIME 类型。仅应用程序用。
使用files.metadata来存储与 GridFS 文件的 MIME 类型有关的信息。
files.aliases
过期
可选的。别名字符串数组。仅用于应用程序
使用files.metadata来存储与 GridFS 文件的 MIME 类型有关的信息。
files.metadata
可选的。元数据字段可以是任何数据类型,并且可以保存您要存储的任何其他信息。如果希望将其他任意字段添加到文件集合中的文档,请将其添加到元数据字段中的对象。
GridFS 索引
GridFS 使用每个块和文件集合上的索引来提高效率。为了方便起见,符合GridFS规范的驱动程序会自动创建这些索引。您还可以根据需要创建任何其他索引,以满足您的应用程序需求。
chunks 索引
GridFS使用files_id
和n
字段在chunks
集合上使用唯一的复合索引。可以有效地检索块,如以下示例所示:
符合GridFS规范的驱动程序将在读取和写入操作之前自动确保此索引存在。有关 GridFS 应用程序的特定行为,请参阅相关的驱动程序文档。
如果该索引不存在,则可以执行以下操作以使用mongo shell 创建它:
files 索引
GridFS在files
集合上的filename
和uploadDate
字段上使用索引。该索引允许高效地检索文件,如本示例所示:
符合GridFS规范的驱动程序将在读取和写入操作之前自动确保此索引存在。有关 GridFS 应用程序的特定行为,请参阅相关的驱动程序文档。
如果该索引不存在,则可以执行以下操作以使用mongo shell 创建它:
分片 GridFS
GridFS 考虑两个集合-files 和 chunks。
chunks 集合
要分片 chunks 集合,请使用{ files_id : 1, n : 1 } 或{ files_id : 1 } 作为分片键索引。files_id 是一个ObjectId,并且单调更改。
对于不运行filemd5来验证成功上传的 MongoDB 驱动程序(例如,支持 MongoDB 4.0 或更高版本的 MongoDB 驱动程序),可以将哈希分片用于 chunks 集合。
如果 MongoDB 驱动程序运行filemd5,则不能使用Hashed Sharding。有关详细信息,请参阅SERVER-9888。
files 集合
files 集合很小,仅包含元数据。GridFS 所需的所有密钥都不适合在分片环境中进行平均分配。保留未分片的 files 允许所有文件元数据文档保留在主分片上。
如果必须分片 files 集合,请使用_id 字段,可能与应用程序字段结合使用。
原文链接:
https://github.com/mongodb-china/MongoDB-CN-Manual/blob/master/cun-chu/gridfs.md
关于作者:张琦
Java 开发工程师,陕西西安。
评论