写点什么

大牛耗时一年:深入探索 -Android- 包体积优化, 共三万字建议收藏上

用户头像
Android架构
关注
发布于: 刚刚
  • 因为如果你的 App 与其它同类型的 App 相比 Apk 体积要更小的话,那么你的 App 下载率就可能要高一些。而且,包体积越小,用户下载等待的时间也会越短,所以下载转换成功率也就越高。所以,安装包大小与下载转化率的关系 大致是成反比 的,即安装包越大,下载转换率就越小。

  • 一个 80MB 的应用,用户即使点了下载,也可能因为网络速度慢、突然反悔导致下载失败。而对于一个 20MB 的应用,用户点了下载之后,在犹豫要不要下的时候可能就已经下载完了。

  • 而且,现在很多大型的 App 一般都会有一个 Lite 版本的 App,这个也是出于下载转化率方面的考虑。


2 应用市场


  • Google Play 应用市场强制要求超过 100MB 的应用只能使用 APK 扩展文件方式 上传。当使用 APK 扩展文件方式 上传时,Google Play 会为我们的应用 托管 扩展文件,并将其 免费提供 给设备。

  • 扩展文件将保存到设备的共享存储位置(SD 卡或可安装 USB 的分区;也称为“外部”存储),应用可以在其中访问它们。在大多数设备上,Google Play 会在下载 APK 的同时下载扩展文件,因此应用在用户首次打开时便拥有了所需的一切。

  • 但是,在某些情况下,我们的应用必须在应用启动时从 Google Play 下载文件。如果您想避免使用扩展文件,并且想要应用程序的下载大小大于 100 MB,则应该使用 Android App Bundles 上传应用程序,此时应用程序最多可提供 150 MB 的压缩下载大小。

  • Android App Bundles 就是 Android 应用程序捆绑包,它能够让 App 以 添加动态功能模块的方式 去解决 APK 大小较大的问题。如下,就是由一个基本模块和两个动态功能模块组成的 Android App Bundle APK 的组成结构图:


3、渠道合作商的要求


  • 此外,还有一个原因,当我们的 App 做大之后,可能需要跟各个手机厂商合作预装,这些 渠道合作商会对你的 App 做详细的要求,只有达到相应的要求后才允许你的 App 预装到手机上。而且,越大的 App 其单价成本也会越高。所以,瘦身也是我们项目做大之后一定会遇到的一个问题。

  • 体积过大对 App 性能的影响此外,包体积除了会影响 应用的下载转化率 之外,主要还会对 App 三个方面 的性能有一定的影响,如下所示:


1)安装时间:比如 文件拷贝、Library 解压,并且,在编译 ODEX 的时候,特别是对于 Android 5.0 和 6.0 系统来说,耗费的时间比较久,而 Android 7.0 之后有了 混合编译,所以还可以接受。最后,App 变大后,其 签名校验 的时间也会变长。


2)运行时内存:Resource 资源、Library 以及 Dex 类加载都会占用应用的一部分内存。


3)ROM 空间:如果应用的安装包大小为 50MB,那么启动解压之后很可能就已经超过 100MB 了。并且,如果 闪存空间不足,很可能出现“写入放大”的情况,它是闪存和固态硬盘(SSD)中一种不良的现象,闪存在可重新写入数据前必须先擦除,而擦除操作的粒度与写入操作相比低得多,执行这些操作就会多次移动(或改写)用户数据和元数据。


因此,要改写数据,就需要读取闪存某些已使用的部分,更新它们,并写入到新的位置,如果新位置在之前已被使用过,还需连同先擦除;由于闪存的这种工作方式,必须擦除改写的闪存部分比新数据实际需要的大得多。即最终可能导致实际写入的物理资料量是写入资料量的多倍。


2、APK 组成


我们都知道,Android 项目最终会编译成一个 .apk 后缀的文件,实际上它就是一个 压缩包。因此,它内部还有很多不同类型的文件,这些文件,按照大小,共分为如下几类:


1)代码相关:classes.dex,我们在项目中所编写的 java 文件,经过编译之后会生成一个 .class 文件,而这些所有的 .class 文件呢,它最终会经过 dx 工具编译生成一个 classes.dex。


2)资源相关:res、assets、编译后的二进制资源文件 resources.arsc 和 清单文件 等等。res 和 assets 的不同在于 res 目录下的文件会在 .R 文件中生成对应的资源 ID,而 assets 不会自动生成对应的 ID,而是通过 AssetManager 类的接口来获取。此外,每当在 res 文件夹下放一个文件时,aapt 就会自动生成对应 id 并保存在 .R 文件中,但 .R 文件仅仅只是保证编译程序不会报错,实际上在应用运行时,系统会根据 ID 寻找对应的资源路径,而 resources.arsc 文件就是用来记录这些 ID 和 资源文件位置对应关系 的文件。


3)So 相关:lib 目录下的文件,这块文件的优化空间其实非常大。


此外,还有 META-INF,它存放了应用的 签名信息,其中主要有 3 个文件,如下所示:


MANIFEST.MF:其中每一个资源文件都有一个对应的 SHA-256-Digest(SHA1) 签名,MANIFEST.MF 文件的 SHA256(SHA1) 经过 base64 编码的结果即为 CERT.SF 中的 SHA256(SHA1)-Digest-Manifest 值。


CERT.SF:除了开头处定义的 SHA256(SHA1)-Digest-Manifest 值,后面几项的值是对 MANIFEST.MF 文件中的每项再次 SHA256(SHA1) 经过 base64 编码后的值。


CERT.RSA:其中包含了公钥、加密算法等信息。首先,对前一步生成的 MANIFEST.MF 使用了 SHA256(SHA1)-RSA 算法,用开发者私钥签名。然后,在安装时使用公钥解密。最后,将其与未加密的摘要信息(MANIFEST.MF 文件)进行对比,如果相符,则表明内容没有被修改。


代码瘦身方案探索


在讲解如何对 Dex 进行优化之前,可能有很多同学对 Dex 还没有足够的了解,这里我们就先详细地了解下 Dex。


1、Dex 探秘 1)Dex 是 Android 系统的可执行文件,包含 应用程序的全部操作指令以及运行时数据。因为 Dalvik 是一种针对嵌入式设备而特殊设计的 Java 虚拟机,所以 Dex 文件与标准的 Class 文件在结构设计上有着本质的区别。


2)当 Java 程序被编译成 class 文件之后,还需要使用 dx 工具将所有的 class 文件整合到一个 dex 文件中,这样 dex 文件就将原来每个 class 文件中都有的共有信息合成了一体,这样做的目的是 保证其中的每个类都能够共享数据,这在一定程度上 降低了信息冗余,同时也使得 文件结构更加紧凑。


与传统 jar 文件相比,Dex 文件的大小能够缩减 50% 左右。关于 Class 文件与 Dex 文件的结果对比图如下所示:


如果想深入地了解 Dex 文件格式,可以参见 Google 官方教程 - Dex 格式。


Dex 一般在应用包体积中占据了不少比重,并且,Dex 数量越多,App 的安装时间也会越长。所以,优化它们可以说是 重中之重。下面,我们就来看看有哪些方式可以优化 Dex 这部分的体积。


2、ProGuard 混淆这里就不赘述了,大家应该比较熟悉,原文有比较详细的介绍。


3、D8 与 R8 优化 D8 优化 D8 的 优化效果 总的来说可以归结为如下 四点:


Dex 的编译时间更短。dex 文件更小。D8 编译的 .dex 文件拥有更好的运行时性能。包含 Java 8 语言支持的处理。在 Android Studio 3.0 需要主动在 gradle.properties 文件中新增:


android.enableD8 = trueAndroid Studio 3.1 或之后的版本 D8 将会被作为默认的 Dex 编译器。


R8 优化 R8 官方文档(目前已经开源)


https://r8.googlesource.com/r8


R8 是 Proguard 压缩与优化部分的替代品,并且它仍然使用与 Proguard 一样的 keep 规则。如果我们仅仅想在 Android Studio 中使用 R8,当我们在 build.gradle 中打开混淆的时候,R8 就已经默认集成进 Android Gradle plugin 中了。如果我们当前使用的是 Android Studio 3.4 或 Android Gradle 插件 3.4.0 及其更高版本,R8 会作为默认编译器。否则,我们 必须要在 gradle.properties 中配置如下代码让 App 的混淆去支持 R8,如下所示:


android.enableR8=trueandroid.enableR8.libraries=true


那么,R8 与混淆相比优势在哪里呢?


  • ProGuard 和 R8 都应用了基本名称混淆:它们 都使用简短,无意义的名称重命名类,字段和方法。他们还可以 删除调试属性。但是,R8 在 inline 内联容器类中更有效,并且在删除未使用的类,字段和方法上则更具侵略性。例如,R8 本身集成在 ProGuard V6.1.1 版本中,在压缩 apk 的大小方面,与 ProGuard 的 8.5% 相比,使用 R8 apk 尺寸减小了约 10%。并且,随着 Kotlin 现在成为 Android 的第一语言,R8 进行了 ProGuard 尚未提供的一些 Kotlin 的特定的优化。

  • 从表面上看,ProGuard 和 R8 非常相似。它们都使用相同的配置,因此在它们之间进行切换很容易。放大来看的话,它们之间也存在一些差异。R8 能更好地内联容器类,从而避免了对象分配。但是 ProGuard 也有其自身的优势,具体有如下几点:


1)、ProGuard 在将枚举类型简化为原始整数方面会更加强大。它还传递常量方法参数,这通常对于使用应用程序的特定设置调用的通用库很有用。


ProGuard 的多次优化遍历通常可以产生一系列优化。例如,第一遍可以传递一个常量方法参数,以便下一遍可以删除该参数并进一步传递该值。删除日志代码时,多次传递的效果尤其明显。ProGuard 在删除所有跟踪(包括组成日志消息的字符串操作)方面更有效。


2)、ProGuard 中应用的模式匹配算法可以识别和替换短指令序列,从而提高代码效率并为更多优化打开了机会。在优化遍历的顺序中,尤其是数学运算和字符串运算可从中受益。


3、最后,ProGuard 具有独特的能力来优化使用 GSON 库将对象序列化或反序列化为 JSON 的代码。该库严重依赖反射,这很方便,但效率低下。而 ProGuard 的优化功能可以 通过更高效,直接的访问方式 来代替它。


R8 优化实战接下来,我们就来看看 Awesome-WanAndroid 使用 R8 后,APK 体积的变化,如下图所示:


  • 可以看到,相较于仅使用混淆后的 APK 而言,大小减少了 0.1MB,Dex 部分的优化效果大概为 5%,APK 整体的压缩效果也有 1.5% 左右。

  • 虽然从减少的 APK 大小来看,0.1MB 很少,但是比例并不小,如果你负责的是一个像微信、淘宝等规模的 App,它们的体积一般都将近 100MB,使用 R8 后也能减小 1.5MB 的大小。

  • D8 与 R8 的作用非常强大,而 Jake Wharton 大神最近一年多也在研究 D8 与 R8 的知识,如果想对 D8 与 R8 的实现细节有更多地了解,可以看看他的 个人博客。


4、去除 debug 信息与行号信息在讲解什么是 deubg 信息与行号信息之前,我们需要先了解 Dex 的一些知识。


我们都知道,JVM 运行时加载的是 .class 文件,而 Android 为了使包大小更加紧凑、运行时更加高效就发明了 Dalvik 和 ART 虚拟机,两种虚拟机运行的都是 .dex 文件,当然 ART 虚拟机还可以同时运行 oat 文件。


所以 Dex 文件里的信息内容和 Class 文件包含的信息是一样的,不同的是 D


《Android学习笔记总结+最新移动架构视频+大厂安卓面试真题+项目实战源码讲义》
浏览器打开:qq.cn.hn/FTe 免费领取
复制代码


ex 文件对 Class 中的信息做了去重,一个 Dex 包含了很多的 Class 文件,并且在结构上有比较大的差异,Class 是流式的结构,Dex 是分区结构,Dex 内部的各个区块间通过 offset 来进行索引。


为了在应用出现问题时,我们能在调试的时候去显示相应的调试信息或者上报 crash 或者主动获取调用堆栈的时候能通过 debugItem 来获取对应的行号,我们都会在混淆配置中加上下面的规则:


-keepattributes SourceFile, LineNumberTable 这样就会保留 Dex 中的 debug 与行号信息,此时的 Dex 结构图 如下所示:


大牛耗时一年:深入探索 Android 包体积优化,共三万字建议收藏上从图中可以看到,Dex 文件的结构主要分为 四大块:header 区,索引区,data 区,map 区。而我们的 debug 与行号信息就保存在 data 区中的 debugItems 区域。


而 debug_items 里面主要包含了 两种信息,如下所示:


调试的信息:包含函数的参数和所有的局部变量。排查问题的信息:包含所有的指令集行号与源文件行号的对应关系。根据 Google 官方的数据,debugItem 一般占 Dex 的比例有 5% 左右,如果我们能去除 debug 与行号信息,就能更进一步对 Dex 进行瘦身,但是会失去调试信息的功能,那么,有什么方式可以去掉 debugItem,同时又能让 crash 上报的时候能拿到正确的行号呢?


我们可以尝试直接修改 Dex 文件,保留一小块 debugItem,让系统查找行号的时候指令集行号和源文件行号保持一致,这样任何监控上报的行号都直接变成了指令集行号。


每一个方法都会有一个 debugInfoItem,每一个 debuginfoItem 里面都有一个指令集行号和源文件行号的映射关系,这了我们直接把多余的 debugInfoItem 全部删掉,只保留了一个 debugInfoItem,这样所有的方法都会指向同一个 debugInfoItem,并且这个 debugInfoItem 中的指令集行号和源文件行号保持一致,这样不管用什么方式来查找行号,拿到的都是指令集行号。


需要注意的是,采用这种方案 需要兼容所有虚拟机的查找方式,因此 仅仅保留一个 debugInfoItem 是不够的,需要对 debugInfoItem 进行分区,并且 debugInfoItem 表不能太大。


关于如何去除 Dex 中的 Debug 信息是通过 ReDex 的 StripDebugInfoPass 来完成的,其配置如下所示:


{"redex" : {"passes" : ["StripDebugInfoPass","RegAllocPass"]},"StripDebugInfoPass" : {"drop_all_dbg_info" : false,"drop_local_variables" : true,"drop_line_numbers" : false,"drop_src_files" : false,"use_whitelist" : false,"cls_whitelist" : [],"method_whitelist" : [],"drop_prologue_end" : true,"drop_epilogue_begin" : true,"drop_all_dbg_info_if_empty" : true},"RegAllocPass" : {"live_range_splitting": false}}


关于 debuginfo 的实战我们下面马上会开始,在此之前,我们先讲讲 Dex 分包中的另一个优化点。


5、Dex 分包优化 Dex 分包优化原理当我们的 APK 过大时,Dex 的方法数就会超过 65536 个,因此,必须采用 mutildex 进行分包,但是此时每一个 Dex 可能会调用到其它 Dex 中的方法,这种 跨 Dex 调用的方式会造成许多冗余信息,具体有如下两点:


多余的 method id:跨 Dex 调用会导致当前 dex 保留被调用 dex 中的方法 id,这种冗余会导致每一个 dex 中可以存放的 class 变少,最终又会导致编译出来的 dex 数量增多,而 dex 数据的增加又会进一步加重这个问题。其它跨 dex 调用造成的信息冗余:除了需要多记录被调用的 method id 之外,还需多记录其所属类和当前方法的定义信息,这会造成 string_ids、type_ids、proto_ids 这几部分信息的冗余。为了减少跨 Dex 调用的情况,我们必须 尽量将有调用关系的类和方法分配到同一个 Dex 中。但是各个类相互之间的调用关系是非常复杂的,所以很难做到最优的情况。


所幸的是,ReDex 的 CrossDexDefMinimizer 类分析了类之间的调用关系,并 使用了贪心算法去计算局部的最优解(编译效果和 dex 优化效果之间的某一个平衡点)。


https://github.com/facebook/redex/blob/master/opt/interdex/CrossDexRefMinimizer.cpp


使用 "InterDexPass" 配置项可以把互相引用的类尽量放在同个 Dex,增加类的 pre-verify,以此提升应用的冷启动速度。


在 ReDex 中使用 Dex 分包优化跨 dex 调用造成的信息冗余的配置代码如下所示:


{"redex" : {"passes" : ["InterDexPass","RegAllocPass"]},"InterDexPass" : {"minimize_cross_dex_refs": true,"minimize_cross_dex_refs_method_ref_weight": 100,"minimize_cross_dex_refs_field_ref_weight": 90,"minimize_cross_dex_refs_type_ref_weight": 100,"minimize_cross_dex_refs_string_ref_weight": 90},"RegAllocPass" : {"live_range_splitting": false},"string_sort_mode" : "class_order","bytecode_sort_mode" : "class_order"}


为了衡量优化效果,我们可以使用 Dex 信息有效率 这个指标,公式如下所示:


git clone https://github.com/facebook/redex.gitcd redex


如果 Dex 有效率在 80% 以上,就说明基本合格了。


使用 ReDex 进行分包优化、去除 debug 信息及行号信息


下面,我们就使用 Redex 来对上一步生成的 app-release-proguardwithr8.apk 进行进一步的优化。(macOS 环境下)


https://fbredex.com/docs/installation


1、首先,我们需要输入一下命令去去安装 Xcode 命令行工具 xcode-select --install2、然后,使用 homebrew 安装 redex 项目使用到的依赖库


ANDROID_SDK=/Users/quchao/Library/Android/sdk redex --sign -s wan-android-key.jks -a wanandroid -p wanandroid -c ~/Desktop/interdex_stripdebuginfo.config -P app/proguard-rules.pro -o ~/Desktop/app-release-proguardwithr8-stripdebuginfo-interdex.apk ~/Desktop/app-release-proguardwithr8.apk


需要注意的是吗,2020 年 2 月 10 号版本源码的 redex 需要的 boost 版本为 V1.71 及以上,当你使用 brew install boost 安装 boost 时可能获取到的 boost 版本会低于 V1.71,此时可能是 brew 版本需要更新,使用 brew upgrade 去更新 brew 仓库的版本 或者可以直接从 boost 官网下载最新的 boost 源码 至 /usr/local/Cellar/ 目录下,我当前使用的是 boost V1.7.2 源码下载地址 中的 boost_1_72_0.zip。


https://dl.bintray.com/boostorg/release/1.72.0/source/


从 深入探索 Android 启动优化 时就提及到了 Redex 的类重排优化,当时卡在这一步,所以一直没法真正完成类的重排优化。


3、接着,从 Github 上获取 ReDex 的源码并切换到 redex 目录下 git clone https://github.com/facebook/redex.git

用户头像

Android架构

关注

还未添加个人签名 2021.10.31 加入

还未添加个人简介

评论

发布
暂无评论
大牛耗时一年:深入探索-Android-包体积优化,共三万字建议收藏上