写点什么

C++ 学习 ---__gen_tempname 函数原理分析学习

作者:桑榆
  • 2022 年 9 月 22 日
    广东
  • 本文字数:5604 字

    阅读完需:约 18 分钟

引言

__gen_tempname 是 Glibc 库 stdio.h 头文件中生成临时文件名的函数,包含了相关临时文件名的生成逻辑,我们来一起分析一下临时文件名的生成过程。

__gen_tempname 函数参数说明

char *__tmpl---代表传入的文件/文件夹路径 int __suffixlen---后缀长度 int __flags---文件创建后缀 int __kind---创建类型,标识是文件/文件夹/还是返回一个临时名字,但不使用

按照一般典型的临时文件输入,__tmpl 是"tmp/tmpfXXXXXX"这样的字符串,后面 6 个"X"就是需要进行填充的序号,所以在忘下一层调用时,填入了一个后缀长度 6。

//代码参考:glibc/include/stdio.h139 extern int __gen_tempname (char *__tmpl, int __suffixlen, int __flags,140                int __kind) attribute_hidden;141 /* The __kind argument to __gen_tempname may be one of: */142 #  define __GT_FILE 0   /* create a file */143 #  define __GT_DIR  1   /* create a directory */144 #  define __GT_NOCREATE 2   /* just find a name not currently in use */
//代码参考:glibc/sysdeps/posix/tempname.c332 int333 __gen_tempname (char *tmpl, int suffixlen, int flags, int kind)334 {335 return gen_tempname_len (tmpl, suffixlen, flags, kind, 6);336 }
复制代码

gen_tempname_len 的逻辑

在函数开头的注释中也做了相关说明:对 tmpl 保存的字符串进行修改,针对不同的 kind 做如下处理:

  • __GT_NOCREATE:返回一个当前检测之后不存在的临时文件名

  • __GT_FILE:返回一个可读写的 fd,文件的 mode 为 0600

  • __GT_DIR:创建一个文件夹,mode 为 0700

具体实现方式是通过传入的三个函数指针实现的:try_file,try_dir,try_nocreate,然后调用 try_tempname_len 完成核心的 tempname 构造逻辑。

//代码参考:glibc/sysdeps/posix/tempname.c203 /* Generate a temporary file name based on TMPL.  TMPL must match the204    rules for mk[s]temp (i.e., end in at least X_SUFFIX_LEN "X"s,205    possibly with a suffix).206    The name constructed does not exist at the time of the call to207    this function.  TMPL is overwritten with the result.208 209    KIND may be one of:210    __GT_NOCREATE:       simply verify that the name does not exist211                         at the time of the call.212    __GT_FILE:           create the file using open(O_CREAT|O_EXCL)213                         and return a read-write fd.  The file is mode 0600.214    __GT_DIR:            create a directory, which will be mode 0700.215 216    We use a clever algorithm to get hard-to-predict names. */217 #ifdef _LIBC218 static219 #endif220 int221 gen_tempname_len (char *tmpl, int suffixlen, int flags, int kind,222                   size_t x_suffix_len)223 {224   static int (*const tryfunc[]) (char *, void *) =225     {226       [__GT_FILE] = try_file,227       [__GT_DIR] = try_dir,228       [__GT_NOCREATE] = try_nocreate                                        229     };230   return try_tempname_len (tmpl, suffixlen, &flags, tryfunc[kind],231                            x_suffix_len);232 }
复制代码

三个 try 函数的实现逻辑

try_file

传入已构造好的文件路径 tmpl 和对应 flags 信息,调用函数__open 打开,__open 函数的实现逻辑可以参考https://xie.infoq.cn/article/446098c2245671be70a22aff2

174 static int175 try_file (char *tmpl, void *flags)176 {177   int *openflags = flags;178   return __open (tmpl,179                  (*openflags & ~O_ACCMODE)180                  | O_RDWR | O_CREAT | O_EXCL, S_IRUSR | S_IWUSR);181 }
复制代码

try_dir

传入已构造好的文件路径 tmpl 和对应 flags 信息,调用函数__mkdir 创建文件夹,注意,这里的 falgs 信息其实是完全没有使用的,后面的 S_IRUSR,S_IWUSR,S_IXUSR 实际上是定义文件夹的读写执行权限。

183 static int184 try_dir (char *tmpl, _GL_UNUSED void *flags)185 {186   return __mkdir (tmpl, S_IRUSR | S_IWUSR | S_IXUSR);187 }
//glibc/io/fcntl.h105 # define S_IRUSR __S_IREAD /* Read by owner. */ 106 # define S_IWUSR __S_IWRITE /* Write by owner. */107 # define S_IXUSR __S_IEXEC /* Execute by owner. */108 /* Read, write, and execute by owner. */109 # define S_IRWXU (__S_IREAD|__S_IWRITE|__S_IEXEC)
复制代码

try_nocreate

首先通过__lstat64_time64 获取当前传入路径 tmpl 的文件状态,如果该文件已经创建,那就会查询成功,返回 0,这时就要将错误状态置为 EEXIST(文件存在);或者非 0,即文件未被创建,查询信息失败,此时查看第二个条件而且错误码被置为溢出,那此时也置为 EEXIST(文件存在)。

最后通过比较 errno 和 ENOENT(No such file or directory)的值,如果是 ENOENT 表明该临时文件名没有被使用过,try_nocreate 返回 0 表示成功。

189 static int190 try_nocreate (char *tmpl, _GL_UNUSED void *flags)191 {192   struct_stat64 st;193 194   if (__lstat64_time64 (tmpl, &st) == 0 || errno == EOVERFLOW)195     __set_errno (EEXIST);196   return errno == ENOENT ? 0 : -1;197 }
复制代码

try_tempname_len 的实现逻辑

1.入参分析

  • char *tmpl---临时文件名:如 tmp/tmpfXXXXXX

  • int suffixlen---后缀长度

  • void *args---flags 信息

  • int (*tryfunc) (char *, void *)---try 类型函数指针表

  • size_t x_suffix_len---后缀 X 的个数,一般是 6

//glibc/sysdeps/posix/tempname.c234 #ifdef _LIBC235 static236 #endif237 int238 try_tempname_len (char *tmpl, int suffixlen, void *args,239                   int (*tryfunc) (char *, void *), size_t x_suffix_len)240 {241   size_t len;242   char *XXXXXX;243   unsigned int count;244   int fd = -1;245   int save_errno = errno;
复制代码

2.定义尝试的文件数量大小 ATTEMPTS_MIN

因为我们总共有 6 个 X 位置需要填充,每个位置上可以是如下的任何一个字符:

"abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789"--共 62 个字符

所以所有的组合数为 62662^6626,但是实际上我们没有必要尝试所有的组合,我们尝试 62362^3623 种组合,这种组合就要求 X_SUFFIX_LEN 即 X 的长度至少是 3 个,足够我们进行替换。

同时为了兼容 POSIX 的定义,我们需要与 TMP_MAX 做比较,选择两者中较大的那个

 33 #ifndef TMP_MAX                                                             34 # define TMP_MAX 238328 //实际上也是62*62*62 247   /* A lower bound on the number of temporary files to attempt to248      generate.  The maximum total number of temporary file names that249      can exist for a given template is 62**6.  It should never be250      necessary to try all of these combinations.  Instead if a reasonable251      number of names is tried (we define reasonable as 62**3) fail to252      give the system administrator the chance to remove the problems.253      This value requires that X_SUFFIX_LEN be at least 3.  */254 #define ATTEMPTS_MIN (62 * 62 * 62)255 256   /* The number of times to attempt to generate a temporary file.  To257      conform to POSIX, this must be no smaller than TMP_MAX.  */258 #if ATTEMPTS_MIN < TMP_MAX259   unsigned int attempts = TMP_MAX;260 #else261   unsigned int attempts = ATTEMPTS_MIN;262 #endif
复制代码

3.随机数准备

random_value 定义为 uint_fast64_t,即 64 位 uint,这里取了 v 的地址与 max_align_t 的除数作为初始化种子;vdigits 表示当前可以有多少个字符可以从 v 中解析出来;use_getrandom 的值取决于 tryfunc 函数指针是否直接是 try_nocreate,如果是,代表只生成文件名;unfair_min,V 的最小不公平值。如果 V 小于此值,V 可以公平地生成 BASE_62_DIGITS 数字。否则,它可能会有偏差,取值就是 RANDOM_VALUE_MAX 去除 RANDOM_VALUE_MAX % BASE_62_POWER 即余数部分。

 72 /* Use getrandom if it works, falling back on a 64-bit linear 73    congruential generator that starts with Var's value 74    mixed in with a clock's low-order bits if available.  */ 75 typedef uint_fast64_t random_value;                                      76 #define RANDOM_VALUE_MAX UINT_FAST64_MAX 77 #define BASE_62_DIGITS 10 /* 62**10 < UINT_FAST64_MAX */ 78 #define BASE_62_POWER (62LL * 62 * 62 * 62 * 62 * 62 * 62 * 62 * 62 * 62) 264   /* A random variable.  The initial value is used only the for fallback path265      on 'random_bits' on 'getrandom' failure.  Its initial value tries to use266      some entropy from the ASLR and ignore possible bits from the stack267      alignment.  */268   random_value v = ((uintptr_t) &v) / alignof (max_align_t);269 270   /* How many random base-62 digits can currently be extracted from V.  */271   int vdigits = 0;272 273   /* Whether to consume entropy when acquiring random bits.  On the274      first try it's worth the entropy cost with __GT_NOCREATE, which275      is inherently insecure and can use the entropy to make it a bit276      less secure.  On the (rare) second and later attempts it might277      help against DoS attacks.  */278   bool use_getrandom = tryfunc == try_nocreate;279 280   /* Least unfair value for V.  If V is less than this, V can generate281      BASE_62_DIGITS digits fairly.  Otherwise it might be biased.  */282   random_value const unfair_min283     = RANDOM_VALUE_MAX - RANDOM_VALUE_MAX % BASE_62_POWER;
复制代码

4.tmpl 的数据准备

检查 tmpl 的合法性,主要是检查 x_suffix_len 的数量是否正确,否则判断为 EINVAL(Invalid argument);

然后将 XXXXXX 赋值为 X 字符开始的位置。

285   len = strlen (tmpl);286   if (len < x_suffix_len + suffixlen287       || strspn (&tmpl[len - x_suffix_len - suffixlen], "X") < x_suffix_len)288     {289       __set_errno (EINVAL);290       return -1;291     }292 293   /* This is where the Xs start.  */294   XXXXXX = &tmpl[len - x_suffix_len - suffixlen];
复制代码

5.循环验证部分

  • 1.从 0 开始遍历 attempts 尝试数量,至多是 626262 次,中间成功就 return 退出函数

  • 2.对 x_suffix_len 中的每一个字符进行遍历填充

  • 3.随机数循环,vdigits 表示可以从随机数中抽取的字符,如果为 0,那就要通过 random_bits 获取随机数,而且要保证 v 大于其最小不公平值 unfair_min,实际上这一步就是给出最随机的一个随机数,然后 vdigits 就被赋值为 BASE_62_DIGITS = 10,表示最多可以从中生成 10 个字符

  • 4.填充字符,使用 v(随机数)%62 求余,对应的 index 找到对应的 letters 字符数组中的字符,然后 v/62 变小,vdigits--,减少一位,直到 x_suffix_len 个 x 填充完成;

  • 5.调用函数指针 tryfunc 执行对应的操作,并处理返回的结果。

296   for (count = 0; count < attempts; ++count)297     {298       for (size_t i = 0; i < x_suffix_len; i++)299         {300           if (vdigits == 0)301             {302               do303                 {304                   v = random_bits (v, use_getrandom);305                   use_getrandom = true;306                 }307               while (unfair_min <= v);308 309               vdigits = BASE_62_DIGITS;310             }311 312           XXXXXX[i] = letters[v % 62];313           v /= 62;314           vdigits--;315         }316 317       fd = tryfunc (tmpl, args);318       if (fd >= 0)319         {320           __set_errno (save_errno);321           return fd;322         }323       else if (errno != EEXIST)324         return -1;                                                325     }
复制代码

随机数部分

随机数算法的目的就是保证在每一次进入函数时都生成尽可能随机的数,这里就不深入分析了,可以看到实际上这里是有两种方式的,根据 use_getrandom(即上面的是否是 try_nocreate),决定是调用系统函数__getrandom 生成随机数,还是使用传入的随机数种子(即 V 的地址,实际上每次函数运行,这个地址可能都会变化),然后再与当前的时间做运算,通过特定的规则返回随机数。

 80 static random_value 81 random_bits (random_value var, bool use_getrandom) 82 { 83   random_value r; 84   /* Without GRND_NONBLOCK it can be blocked for minutes on some systems.  */ 85   if (use_getrandom && __getrandom (&r, sizeof r, GRND_NONBLOCK) == sizeof r) 86     return r; 87 #if _LIBC || (defined CLOCK_MONOTONIC && HAVE_CLOCK_GETTIME) 88   /* Add entropy if getrandom did not work.  */ 89   struct __timespec64 tv; 90   __clock_gettime64 (CLOCK_MONOTONIC, &tv); 91   var ^= tv.tv_nsec; 92 #endif 93   return 2862933555777941757 * var + 3037000493; 94 }
复制代码

总结

__gen_tempname 实际上是通过随机数生成算法,实现对临时文件名的填充,中间有很多细节的部分值得研究和分析,能够了解到其内部实现。

发布于: 刚刚阅读数: 4
用户头像

桑榆

关注

北海虽赊,扶摇可接;东隅已逝,桑榆非晚! 2020.02.29 加入

Android手机厂商-相机软件系统工程师 爬山/徒步/Coding

评论

发布
暂无评论
C++学习---__gen_tempname函数原理分析学习_c++_桑榆_InfoQ写作社区