引言
__gen_tempname 是 Glibc 库 stdio.h 头文件中生成临时文件名的函数,包含了相关临时文件名的生成逻辑,我们来一起分析一下临时文件名的生成过程。
__gen_tempname 函数参数说明
char *__tmpl---代表传入的文件/文件夹路径 int __suffixlen---后缀长度 int __flags---文件创建后缀 int __kind---创建类型,标识是文件/文件夹/还是返回一个临时名字,但不使用
按照一般典型的临时文件输入,__tmpl 是"tmp/tmpfXXXXXX"这样的字符串,后面 6 个"X"就是需要进行填充的序号,所以在忘下一层调用时,填入了一个后缀长度 6。
//代码参考:glibc/include/stdio.h
139 extern int __gen_tempname (char *__tmpl, int __suffixlen, int __flags,
140 int __kind) attribute_hidden;
141 /* The __kind argument to __gen_tempname may be one of: */
142 # define __GT_FILE 0 /* create a file */
143 # define __GT_DIR 1 /* create a directory */
144 # define __GT_NOCREATE 2 /* just find a name not currently in use */
//代码参考:glibc/sysdeps/posix/tempname.c
332 int
333 __gen_tempname (char *tmpl, int suffixlen, int flags, int kind)
334 {
335 return gen_tempname_len (tmpl, suffixlen, flags, kind, 6);
336 }
复制代码
gen_tempname_len 的逻辑
在函数开头的注释中也做了相关说明:对 tmpl 保存的字符串进行修改,针对不同的 kind 做如下处理:
__GT_NOCREATE:返回一个当前检测之后不存在的临时文件名
__GT_FILE:返回一个可读写的 fd,文件的 mode 为 0600
__GT_DIR:创建一个文件夹,mode 为 0700
具体实现方式是通过传入的三个函数指针实现的:try_file,try_dir,try_nocreate,然后调用 try_tempname_len 完成核心的 tempname 构造逻辑。
//代码参考:glibc/sysdeps/posix/tempname.c
203 /* Generate a temporary file name based on TMPL. TMPL must match the
204 rules for mk[s]temp (i.e., end in at least X_SUFFIX_LEN "X"s,
205 possibly with a suffix).
206 The name constructed does not exist at the time of the call to
207 this function. TMPL is overwritten with the result.
208
209 KIND may be one of:
210 __GT_NOCREATE: simply verify that the name does not exist
211 at the time of the call.
212 __GT_FILE: create the file using open(O_CREAT|O_EXCL)
213 and return a read-write fd. The file is mode 0600.
214 __GT_DIR: create a directory, which will be mode 0700.
215
216 We use a clever algorithm to get hard-to-predict names. */
217 #ifdef _LIBC
218 static
219 #endif
220 int
221 gen_tempname_len (char *tmpl, int suffixlen, int flags, int kind,
222 size_t x_suffix_len)
223 {
224 static int (*const tryfunc[]) (char *, void *) =
225 {
226 [__GT_FILE] = try_file,
227 [__GT_DIR] = try_dir,
228 [__GT_NOCREATE] = try_nocreate
229 };
230 return try_tempname_len (tmpl, suffixlen, &flags, tryfunc[kind],
231 x_suffix_len);
232 }
复制代码
三个 try 函数的实现逻辑
try_file
传入已构造好的文件路径 tmpl 和对应 flags 信息,调用函数__open 打开,__open 函数的实现逻辑可以参考https://xie.infoq.cn/article/446098c2245671be70a22aff2
174 static int
175 try_file (char *tmpl, void *flags)
176 {
177 int *openflags = flags;
178 return __open (tmpl,
179 (*openflags & ~O_ACCMODE)
180 | O_RDWR | O_CREAT | O_EXCL, S_IRUSR | S_IWUSR);
181 }
复制代码
try_dir
传入已构造好的文件路径 tmpl 和对应 flags 信息,调用函数__mkdir 创建文件夹,注意,这里的 falgs 信息其实是完全没有使用的,后面的 S_IRUSR,S_IWUSR,S_IXUSR 实际上是定义文件夹的读写执行权限。
183 static int
184 try_dir (char *tmpl, _GL_UNUSED void *flags)
185 {
186 return __mkdir (tmpl, S_IRUSR | S_IWUSR | S_IXUSR);
187 }
//glibc/io/fcntl.h
105 # define S_IRUSR __S_IREAD /* Read by owner. */
106 # define S_IWUSR __S_IWRITE /* Write by owner. */
107 # define S_IXUSR __S_IEXEC /* Execute by owner. */
108 /* Read, write, and execute by owner. */
109 # define S_IRWXU (__S_IREAD|__S_IWRITE|__S_IEXEC)
复制代码
try_nocreate
首先通过__lstat64_time64 获取当前传入路径 tmpl 的文件状态,如果该文件已经创建,那就会查询成功,返回 0,这时就要将错误状态置为 EEXIST(文件存在);或者非 0,即文件未被创建,查询信息失败,此时查看第二个条件而且错误码被置为溢出,那此时也置为 EEXIST(文件存在)。
最后通过比较 errno 和 ENOENT(No such file or directory)的值,如果是 ENOENT 表明该临时文件名没有被使用过,try_nocreate 返回 0 表示成功。
189 static int
190 try_nocreate (char *tmpl, _GL_UNUSED void *flags)
191 {
192 struct_stat64 st;
193
194 if (__lstat64_time64 (tmpl, &st) == 0 || errno == EOVERFLOW)
195 __set_errno (EEXIST);
196 return errno == ENOENT ? 0 : -1;
197 }
复制代码
try_tempname_len 的实现逻辑
1.入参分析
char *tmpl---临时文件名:如 tmp/tmpfXXXXXX
int suffixlen---后缀长度
void *args---flags 信息
int (*tryfunc) (char *, void *)---try 类型函数指针表
size_t x_suffix_len---后缀 X 的个数,一般是 6
//glibc/sysdeps/posix/tempname.c
234 #ifdef _LIBC
235 static
236 #endif
237 int
238 try_tempname_len (char *tmpl, int suffixlen, void *args,
239 int (*tryfunc) (char *, void *), size_t x_suffix_len)
240 {
241 size_t len;
242 char *XXXXXX;
243 unsigned int count;
244 int fd = -1;
245 int save_errno = errno;
复制代码
2.定义尝试的文件数量大小 ATTEMPTS_MIN
因为我们总共有 6 个 X 位置需要填充,每个位置上可以是如下的任何一个字符:
"abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"--共 62 个字符
所以所有的组合数为 62662^6626,但是实际上我们没有必要尝试所有的组合,我们尝试 62362^3623 种组合,这种组合就要求 X_SUFFIX_LEN 即 X 的长度至少是 3 个,足够我们进行替换。
同时为了兼容 POSIX 的定义,我们需要与 TMP_MAX 做比较,选择两者中较大的那个
33 #ifndef TMP_MAX
34 # define TMP_MAX 238328 //实际上也是62*62*62
247 /* A lower bound on the number of temporary files to attempt to
248 generate. The maximum total number of temporary file names that
249 can exist for a given template is 62**6. It should never be
250 necessary to try all of these combinations. Instead if a reasonable
251 number of names is tried (we define reasonable as 62**3) fail to
252 give the system administrator the chance to remove the problems.
253 This value requires that X_SUFFIX_LEN be at least 3. */
254 #define ATTEMPTS_MIN (62 * 62 * 62)
255
256 /* The number of times to attempt to generate a temporary file. To
257 conform to POSIX, this must be no smaller than TMP_MAX. */
258 #if ATTEMPTS_MIN < TMP_MAX
259 unsigned int attempts = TMP_MAX;
260 #else
261 unsigned int attempts = ATTEMPTS_MIN;
262 #endif
复制代码
3.随机数准备
random_value 定义为 uint_fast64_t,即 64 位 uint,这里取了 v 的地址与 max_align_t 的除数作为初始化种子;vdigits 表示当前可以有多少个字符可以从 v 中解析出来;use_getrandom 的值取决于 tryfunc 函数指针是否直接是 try_nocreate,如果是,代表只生成文件名;unfair_min,V 的最小不公平值。如果 V 小于此值,V 可以公平地生成 BASE_62_DIGITS 数字。否则,它可能会有偏差,取值就是 RANDOM_VALUE_MAX 去除 RANDOM_VALUE_MAX % BASE_62_POWER 即余数部分。
72 /* Use getrandom if it works, falling back on a 64-bit linear
73 congruential generator that starts with Var's value
74 mixed in with a clock's low-order bits if available. */
75 typedef uint_fast64_t random_value;
76 #define RANDOM_VALUE_MAX UINT_FAST64_MAX
77 #define BASE_62_DIGITS 10 /* 62**10 < UINT_FAST64_MAX */
78 #define BASE_62_POWER (62LL * 62 * 62 * 62 * 62 * 62 * 62 * 62 * 62 * 62)
264 /* A random variable. The initial value is used only the for fallback path
265 on 'random_bits' on 'getrandom' failure. Its initial value tries to use
266 some entropy from the ASLR and ignore possible bits from the stack
267 alignment. */
268 random_value v = ((uintptr_t) &v) / alignof (max_align_t);
269
270 /* How many random base-62 digits can currently be extracted from V. */
271 int vdigits = 0;
272
273 /* Whether to consume entropy when acquiring random bits. On the
274 first try it's worth the entropy cost with __GT_NOCREATE, which
275 is inherently insecure and can use the entropy to make it a bit
276 less secure. On the (rare) second and later attempts it might
277 help against DoS attacks. */
278 bool use_getrandom = tryfunc == try_nocreate;
279
280 /* Least unfair value for V. If V is less than this, V can generate
281 BASE_62_DIGITS digits fairly. Otherwise it might be biased. */
282 random_value const unfair_min
283 = RANDOM_VALUE_MAX - RANDOM_VALUE_MAX % BASE_62_POWER;
复制代码
4.tmpl 的数据准备
检查 tmpl 的合法性,主要是检查 x_suffix_len 的数量是否正确,否则判断为 EINVAL(Invalid argument);
然后将 XXXXXX 赋值为 X 字符开始的位置。
285 len = strlen (tmpl);
286 if (len < x_suffix_len + suffixlen
287 || strspn (&tmpl[len - x_suffix_len - suffixlen], "X") < x_suffix_len)
288 {
289 __set_errno (EINVAL);
290 return -1;
291 }
292
293 /* This is where the Xs start. */
294 XXXXXX = &tmpl[len - x_suffix_len - suffixlen];
复制代码
5.循环验证部分
1.从 0 开始遍历 attempts 尝试数量,至多是 626262 次,中间成功就 return 退出函数
2.对 x_suffix_len 中的每一个字符进行遍历填充
3.随机数循环,vdigits 表示可以从随机数中抽取的字符,如果为 0,那就要通过 random_bits 获取随机数,而且要保证 v 大于其最小不公平值 unfair_min,实际上这一步就是给出最随机的一个随机数,然后 vdigits 就被赋值为 BASE_62_DIGITS = 10,表示最多可以从中生成 10 个字符
4.填充字符,使用 v(随机数)%62 求余,对应的 index 找到对应的 letters 字符数组中的字符,然后 v/62 变小,vdigits--,减少一位,直到 x_suffix_len 个 x 填充完成;
5.调用函数指针 tryfunc 执行对应的操作,并处理返回的结果。
296 for (count = 0; count < attempts; ++count)
297 {
298 for (size_t i = 0; i < x_suffix_len; i++)
299 {
300 if (vdigits == 0)
301 {
302 do
303 {
304 v = random_bits (v, use_getrandom);
305 use_getrandom = true;
306 }
307 while (unfair_min <= v);
308
309 vdigits = BASE_62_DIGITS;
310 }
311
312 XXXXXX[i] = letters[v % 62];
313 v /= 62;
314 vdigits--;
315 }
316
317 fd = tryfunc (tmpl, args);
318 if (fd >= 0)
319 {
320 __set_errno (save_errno);
321 return fd;
322 }
323 else if (errno != EEXIST)
324 return -1;
325 }
复制代码
随机数部分
随机数算法的目的就是保证在每一次进入函数时都生成尽可能随机的数,这里就不深入分析了,可以看到实际上这里是有两种方式的,根据 use_getrandom(即上面的是否是 try_nocreate),决定是调用系统函数__getrandom 生成随机数,还是使用传入的随机数种子(即 V 的地址,实际上每次函数运行,这个地址可能都会变化),然后再与当前的时间做运算,通过特定的规则返回随机数。
80 static random_value
81 random_bits (random_value var, bool use_getrandom)
82 {
83 random_value r;
84 /* Without GRND_NONBLOCK it can be blocked for minutes on some systems. */
85 if (use_getrandom && __getrandom (&r, sizeof r, GRND_NONBLOCK) == sizeof r)
86 return r;
87 #if _LIBC || (defined CLOCK_MONOTONIC && HAVE_CLOCK_GETTIME)
88 /* Add entropy if getrandom did not work. */
89 struct __timespec64 tv;
90 __clock_gettime64 (CLOCK_MONOTONIC, &tv);
91 var ^= tv.tv_nsec;
92 #endif
93 return 2862933555777941757 * var + 3037000493;
94 }
复制代码
总结
__gen_tempname 实际上是通过随机数生成算法,实现对临时文件名的填充,中间有很多细节的部分值得研究和分析,能够了解到其内部实现。
评论