iOS - 判断 NSString 字符串是否包含 Emoji

2021-10-27 本文已影响0人 hackswang

第一种方案：模糊匹配

这种方式使用 Unicode 码点进行匹配，具体的编码原理和编码转换原理可以参考这篇文章：iOS - NSString 与 Emoji

为防止有同学不往下看，提前说下这种方式是存在缺陷的，放到解决方案代码下面说明。

#import "NSString+Emoji.h"

@implementation NSString (Emoji)

/*
 支持版本为 Unicode 14.0 及以下，即 iOS15.0 及以下
 Unicode 和 Emoji 版本更新后需要及时更新码点枚举值
 */

- (BOOL)containsEmoji {
    __block BOOL containsEmoji = NO;
    [self enumerateSubstringsInRange:NSMakeRange(0, self.length)
                             options:NSStringEnumerationByComposedCharacterSequences
                          usingBlock:^(NSString * _Nullable substring, NSRange substringRange, NSRange enclosingRange, BOOL * _Nonnull stop)
     {
        if ([substring isEmoji]) {
            containsEmoji = YES;
            *stop = YES;
        }
    }];
    return containsEmoji;
}

- (BOOL)isEmoji {
    // 确保字符不为空
    if (self.length <= 0) {
        return NO;
    }
    // 确保字符为单字符
    __block BOOL isSingalString = YES;
    [self enumerateSubstringsInRange:NSMakeRange(0, self.length)
                             options:NSStringEnumerationByComposedCharacterSequences
                          usingBlock:^(NSString * _Nullable substring, NSRange substringRange, NSRange enclosingRange, BOOL * _Nonnull stop)
     {
        if (substringRange.location > 0) {
            isSingalString = NO;
            *stop = YES;
        }
    }];
    if (!isSingalString) {
        return NO;
    }
    // 取一个 UTF-16 单元即前两个字节判断是否为 UTF-32 编码
    const unichar hs = [self characterAtIndex:0];
    if (0xd800 <= hs && hs <= 0xdbff) {
        // 对 UTF-32 格式编码进行码点转换
        if (self.length > 1) {
            const unichar ls = [self characterAtIndex:1];
            const unsigned long long codepoint = (((unsigned long long)hs - 0xd800) * 0x400) + ((unsigned long long)ls - 0xdc00) + 0x10000;
            // 码点模糊匹配
            if (0x1d000 <= codepoint && codepoint <= 0x1faff) {
                return YES;
            } else {
                return NO;
            }
        } else {
            return NO;
        }
    } else if (self.length > 1) {
        // 特殊的组合编码 Emoji 枚举
        const unichar ls = [self characterAtIndex:1];
        return ls == 0x20e3 || ls == 0xfe0f || ls == 0xd83c;
    } else {
        // UTF-16 格式的 Emoji 枚举
        if (0x2100 <= hs && hs <= 0x278a) {
            return YES;
        } else if (0x2793 <= hs && hs <= 0x27ff) {
            return YES;
        } else if (0x2b05 <= hs && hs <= 0x2b07) {
            return YES;
        } else if (0x2b1b <= hs && hs <= 0x2b1c) {
            return YES;
        } else if (0x2b50 == hs) {
            return YES;
        } else if (0x2b55 == hs) {
            return YES;
        } else if (0x2934 <= hs && hs <= 0x2935) {
            return YES;
        } else if (0x3030 == hs) {
            return YES;
        } else if (0x303d == hs) {
            return YES;
        } else if (0x3297 <= hs && hs <= 0x3299) {
            return YES;
        } else if (hs == 0xae) {
            return YES;
        } else if (hs == 0xae) {
            return YES;
        } else {
            return NO;
        }
    }
}

@end

可以看到对于 UTF-32 编码类型的 Emoji 做完码点转换之后使用了 0x1d000 ~ 0x1faff 的范围对码点进行匹配，而实际上，这个范围里面的码点个数达到了 79889 个，并且这是在不计算组合编码的情况下。而直到 Unicode 14.0 版本，官方发布的 Emoji 数量只有 700 多个。

那么，其余的这些码点究竟代表了那些字符，这种方案究竟会把什么样的字符判断成为 Emoji，可以用下面的方式将所有这个范围内的字符打印出来一看究竟:

#define EMOJI_CODE_TO_SYMBOL(x) ((((0x808080F0 | (x & 0x3F000) >> 4) | (x & 0xFC0) << 10) | (x & 0x1C0000) << 18) | (x & 0x3F) << 24);

- (void)outputCodePoint {
    for (int i=0x1d000; i<=0x1faff; i++) {
        int sym = EMOJI_CODE_TO_SYMBOL(i);
        NSString *emoji = [[NSString alloc] initWithBytes:&sym length:sizeof(sym) encoding:NSUTF8StringEncoding];
        NSLog(@"CodePoint: %x, Emoji: %@", i, emoji);
    }
}

从结果可以看到，这个范围内的字符，除了我们狭义上认为的 Emoji，还包含了非常多的未被使用的码点：

以及一些特殊字符：

如果在实际应用中不想使某些特殊字符也被统计为 Emoji，可以根据打印的列表调整匹配范围进行适配。或者可以考虑下面两种方案

第二种方案：精准匹配

鉴于第一种情况中，有很多无关的字符也被纳入了 Emoji 的范围，为了防止兼容性问题同时想要精准的确定某个字符是否为 Emoji 的话，最准确也是最笨的方式就是将所有的 Emoji 进行枚举，在需要时只需要进行精准匹配即可。

关于如何将 Emoji 进行完全枚举，可以去官方的公开数据文档中获取列表文件。

或者可以直接使用我下面已经用脚本处理好的 JSON 文档，在这个 GitHub 仓库中：HWEmojiTool，JSON 文档在这个目录。

提供了从 Emoji4.0 版本开始的所有 Emoji JSON 列表，JSON 格式如下：

同时仓库中也有相应的 Demo 文件可供参考。

这种方式的优点在于，不仅可以准确匹配狭义上认为是 Emoji 的所有字符，而且对于组合编码的 Emoji 也可以精准的了解其完整的码点、废弃状态、加入版本以及对应的描述。

但是，由于 Unicode 1.0、2.0 和 3.0 版本的文档格式不统一，而且本人没有多余时间的原因，对于这三个版本的 Emoji 文档的脚本解析暂时被搁置。有相关需求的同学可以自己用脚本解析处理

这种方案和第一种方案有着共同的缺点，Emoji 版本更新时需要同步更新相关的内容，不然可能存在无法兼容新增的 Emoji 的问题

第三种方案：官方API

其实总的来说，上面两种方案都存在着各自不小的缺陷。如果能有一个可以及时更新并且非常权威的方式最好不过了。

其实，目前对于 Emoji 是有第三方服务的 API 可以直接使用的，不过可惜的是，最为权威的 Emojipedia API 目前处于关闭状态，不过官方在这个链接里面也提及了一些其他的服务提供者，具体的实现方式可能需要根据实际情况来更深入的调研了。

iOS - 判断 NSString 字符串是否包含 Emoji

第一种方案：模糊匹配

第二种方案：精准匹配

第三种方案：官方API

猜你喜欢

热点阅读