黑科技!让Native Crash 与ANR无处发泄!

2022-08-05  本文已影响0人  ModestStorm

1.前言

高产似母猪的我,又带来了干货记录,本次是对signal的一个总结与回顾。不知道你们开发中,是否会遇到小部分的nativecrash 或者 anr,这部分往往是由第三方库导致的或者当前版本没办法修复的bug导致的,往往这些难啃的crash,对现有的crash数据指标造成一定影响,同时也对这小部分crash用户不友好,那么我们有没有办法实现一套crash or anr重启机制呢?其实是有的,相信在各个大厂都有一套“安全气囊”装置,比如crash一定次数就启用轻量版本或者自动重新启动等等,下面我们来动手搞一个这样的装置!这也是我第三个s开头的开源库Signal。

https://github.com/TestPlanB/Signal

注意:前方高能!阅读本文最好有一点ndk开发的知识噢!没有也没关系,冲吧!

2.Native Crash

native crash不同于java/kotlin层的crash,在java环境中,如果程序出现了不可预期的crash(即没有捕获),就会往上抛出给最终的线程uncaghtexceptionhandler,在这里我们可以再次处理,比如屏蔽某个exception即可保持app的稳定,然后native层的crash不一样,native 层的crash大多数是“不可恢复”的,比如某个内存方面的错误,这些往往是不可处理的,需要中断当前进程,所以如果发生了native crash,我们转移到自定义的安全处理,比如自动重启后提示用户等等,就会提高用户很大的体验感(比起闪退)。

信号量机制

当native 层发生异常的时候,往往是通过信号的方式发送,给相对应的信号处理器处理。

截屏2022-08-05 16.12.41.png

我们可以从signal.h看到,大概已经定义的信号量有:

/**
 * #define SIGHUP 1
#define SIGINT 2
#define SIGQUIT 3
#define SIGILL 4
#define SIGTRAP 5
#define SIGABRT 6
#define SIGIOT 6
#define SIGBUS 7
#define SIGFPE 8
#define SIGKILL 9
#define SIGUSR1 10
#define SIGSEGV 11
#define SIGUSR2 12
## define SIGPIPE 13
#define SIGALRM 14
#define SIGTERM 15
#define SIGSTKFLT 16
#define SIGCHLD 17
#define SIGCONT 18
#define SIGSTOP 19
#define SIGTSTP 20
#define SIGTTIN 21
#define SIGTTOU 22
#define SIGURG 23
#define SIGXCPU 24
#define SIGXFSZ 25
#define SIGVTALRM 26
#define SIGPROF 27
#define SIGWINCH 28
#define SIGIO 29
#define SIGPOLL SIGIO
#define SIGPWR 30
#define SIGSYS 31
 */

具体的含义可自定百度或者google,相信如果开发者都能在bugly等bug平台上看到。

信号量处理函数sigaction

一般的我们有很多种方式定义信号量处理函数,这里介绍sigaction 头文件:#include<signal.h>

定义函数:int sigaction(int signum,const struct sigaction *act ,struct sigaction *oldact)

函数说明:sigaction会依参数signum指定的信号编号来设置该信号的处理函数。参数signum可以指定SIGKILL和SIGSTOP以外的所有信号。如参数结构sigaction定义如下:

struct sigaction {
    void (*sa_handler)(int);
    void (*sa_sigaction)(int, siginfo_t *, void *);
    sigset_t sa_mask;
    int sa_flags;
    void (*sa_restorer)(void);
};

信号处理函数可以采用void (sa_handler)(int)或void (sa_sigaction)(int, siginfo_t *, void )。到底采用哪个要看sa_flags中是否设置了SA_SIGINFO位,如果设置了就采用void (sa_sigaction)(int, siginfo_t *, void ),此时可以向处理函数发送附加信息;默认情况下采用void (sa_handler)(int),此时只能向处理函数发送信号的数值。

sa_handler:此参数和signal()的参数handler相同,代表新的信号处理函数,其他意义请参考signal();

sa_mask:用来设置在处理该信号时暂时将sa_mask指定的信号集搁置;

sa_restorer:此参数没有使用;

**sa_flags **:用来设置信号处理的其他相关操作,下列的数值可用。

sa_flags还可以设置其他标志:SA_RESETHAND:当调用信号处理函数时,将信号的处理函数重置为缺省值SIG_DFL SA_RESTART:如果信号中断了进程的某个系统调用,则系统自动启动该系统调用 SA_NODEFER :一般情况下, 当信号处理函数运行时,内核将阻塞该给定信号。但是如果设置SA_NODEFER标记, 那么在该信号处理函数运行时,内核将不会阻塞该信号。参考

https://blog.csdn.net/qq_32198115/article/details/120720820

即我们可以通过这个函数,注册我们想要的信号处理,如果当SIGABRT信号到来时,我们希望将其引到自我们自定义信号处理,即可采用以下方式:

sigaction(SIGABRT, &sigc, nullptr);

其中sigc为sigaction结构体的变量。

struct sigaction sigc;
//sigc.sa_handler = SigFunc;
sigc.sa_sigaction = SigFunc;
sigemptyset(&sigc.sa_mask);
sigc.sa_flags = SA_SIGINFO;

SigFunc为我们定义处理函数的指针,我们可以设定这样一个函数,去处理我们想要拦截的信号。

void SigFunc(int sig_num, siginfo *info, void *ptr) {
   自定义处理
}

native crash拦截

有了前面这些基础知识,我们就开始封装我们的crash拦截吧,作为库开发者,我们希望把拦截的信号量交给上层去处理,所以我们的层次是这样的。

截屏2022-08-05 16.16.31.png

所以我们可以有以下代码,具体细节可以看Signal 我们给出函数处理器。

https://github.com/TestPlanB/Signal

jobject currentObj;
JNIEnv *currentEnv = nullptr;
void SigFunc(int sig_num, siginfo *info, void *ptr) {
    // 这里判空并不代表这个对象就是安全的,因为有可能是脏内存

    if (currentEnv == nullptr || currentObj == nullptr) {
        return;
    }
    __android_log_print(ANDROID_LOG_INFO, TAG, "%d catch", sig_num);
    __android_log_print(ANDROID_LOG_INFO, TAG, "crash info pid:%d ", info->si_pid);
    jclass main = currentEnv->FindClass("com/example/lib_signal/SignalController");
    jmethodID id = currentEnv->GetMethodID(main, "callNativeException", "(I)V");
    if (!id) {
        return;
    }
    currentEnv->CallVoidMethod(currentObj, id, sig_num);
    currentEnv->DeleteGlobalRef(currentObj);


}

被加载的时候由系统自动调用JNI_OnLoad。

extern "C" jint JNI_OnLoad(JavaVM *vm, void *reserved) {
    jint result = -1;
    // 直接用vm进行赋值,不然不可靠
    if (vm->GetEnv((void **) &currentEnv, JNI_VERSION_1_4) != JNI_OK) {
        return result;
    }
    return JNI_VERSION_1_4;
}

其中currentEnv代表着当前jni环境,我们在JNI_OnLoad阶段进行初始化即可,currentObj即代表我们要调用的方法对象,因为我们要回调到java层,所以native肯定需要一个java对象,具体可以看到Signal里面的处理,值得注意的是,我们在native想要在其他函数使用java对象的话,在初始函数赋值的时候,就必须采用env->NewGlobalRef方式分配一个全局变量,不然在该函数结束的时候,对象的内存就会变成脏变量(注意不是NULL)。

Spi机制的运用

如果还不明白spi机制的话,可以查看我之前写的这篇spi机制,因为我们最终会将信号信息传递给java层,所以最终会在java最后执行我们的重启处理,但是重启前我们可能会使用各种自定义的处理方案,比如弹出toast或者各种自定义操作,那么这种自定义的处理就很合适用spi接口暴露给具体的使用者即可,所以我们Signal定义了一个接口。

https://juejin.cn/post/7109666495566708766

interface CallOnCatchSignal {
    fun onCatchSignal(signal: Int,context: Context)
}

外部库的调用者实现这个接口,将实现类配置在META-INF.services目录即可,如图:

截屏2022-08-05 16.19.34.png

如此一来,我们就可以在自定义的MyHandler实现自己的重启逻辑,比如重启/自定义上报crash等等,demo可以看Signal的处理。

3.ANR

关于anr也是一个很有趣的话题,我们可以看到anr也会导致闪退,主要是国内各个厂商都有自己的自定义化处理,比如常规的弹出anr框或者主动闪退,无论是哪一种,对于用户来说都不是一个好的体验。

ANR传递过程

以android 11为例子,最终anr被检测发生后,会调用ProcessErrorStateRecord类的appNotResponding方法,去进行dump 墓碑文件的操作,这个时候就会调用发送一个信号为Signal_Quit的信号,对应的常量为3,所以如果我们想检测到anr后去进行自定义处理的话,按照上面所说直接用sigaction可以吗?

截屏2022-08-05 16.20.18.png

然而如果直接用sigaction去注册Signal_Quit信号进行处理的话,会发现居然什么都没有回调!那么这发生了什么!

原因就是我们进程继承Zygote进行的时候就把主线程信号的掩码也继承了,Zygote进程把这三个信号量加入了掩码,该方法被调用在init方法中。

截屏2022-08-05 16.20.59.png

掩码的作用就是使得当前的线程不响应这三个信号量,交给其他线程处理。

那么其他线程这里指的是什么?其实就是SignalCatcher线程,通常我们发生anr的时候也能看到log输出,最终在run方法注册处理函数。

截屏2022-08-05 16.21.31.png

最终调用WaitForSignal:

截屏2022-08-05 16.22.06.png

调用wait方法:

截屏2022-08-05 16.22.13.png

这个sigwait方法也是一个注册信号处理函数的方法,跟sigaction的区别可参考。

https://blog.csdn.net/finuxz/article/details/54969582

取消block

经过上面的分析,相信能了解到为什么Signal_Quit监听不了了,我们也知道,zygote通过掩码把信号进行了屏蔽,那么我们有办法把这个屏蔽给打开吗?答案是有的。

pthread_sigmask(SIG_UNBLOCK, &mask, &old))
sigemptyset(&mask);sigaddset(&mask, SIGQUIT);

我们可以通过pthread_sigmask设置为非block,即参数1的标志,把要取消屏蔽的信号放入即可,如图就是把SIGQUIT取消了,这样一来我们再使用sigaction去注册SIGQUIT就可以在信号出发时执行我们的anr处理逻辑了。值得注意的是,SIGQUIT触发也不一定由anr发生,这是一个必要但不充分的条件,所以我们还要添加其他的判断,比如我们可以判断一个queue里面的当前message的when参数来判断这个消息在队列待了多久,又或者是我们自定义一个异步消息去查看这个消息什么时候回调了handler等等方法,最终判断是否是anr,当然这个不是百分百准确,目前我也没想到百分百准确的方法,因为FileObserve监听traces文件已经在android5以上不能用了,所以Signal里面没有给出具体的判断,只给了一个参考例子。

4最后

上述所讲的都在Signal这个库里面有源码与注释,用起来吧!自定义处理可以用作检测crash,anr,也可以用作一个安全装置,发生crash重启等等,只要有脑洞,都可以实现!最后记得点个赞啦!

文章引用

https://blog.csdn.net/qq_32198115/article/details/120720820

Android Native Crash 收集

上一篇 下一篇

猜你喜欢

热点阅读