写点什么

iOS MachineLearning 系列(10)—— 自然语言分析之文本拆解

作者:珲少
  • 2023-05-04
    上海
  • 本文字数:1912 字

    阅读完需:约 6 分钟

本系列的前几篇文章介绍了 iOS 中有关图像和视频处理的 API,视觉处理主要有 Vision 框架负责,本篇起,将介绍在 iOS 中 Machine Learning 领域相关的自然语言处理框架:NaturalLanguage。

1 - 简介

NaturalLanguage 是 iOS 种提供的一种处理自然语言的内置框架,使用它不会使应用的包体积增大,不会为应用带来额外的负担,且可以实现非常强大的语言处理功能。


NaturalLanguage 默认支持多种语言,拥有如下能力:


  • 检测一段文本所使用的语言。

  • 将一段文本按照词组,句子,段落进行拆解。

  • 进行词性分析。

  • 进行语义分析。


本篇,我们主要介绍其文本拆解能力,及如何使用这些 API。

2 - 拆解文本

我们先从一个简单的示例来看如何使用 NaturalLanguage 框架中的 API 进行文本拆解。


首先准备一段测试文本,如下:


最近,随着 Chat-GPT4 的发布,人工智能相关的资讯和话题再次火热了起来😄。

有了人工智能的加持,对人们的生活以及各行各业的工作都将带来效率的极大提升。目前,各种大模型的发布层出不穷。这些大模型虽然功能非常强大(如文本理解,绘图等),但对于个人来说,要跑起这样一个模型来对外提供服务还是比较困难的,其需要有非常强大的算力支持。


这段文案有两个段落组成。我们可以先尝试对其内的单词进行拆解。 使用 NLTokenizer 来解析文本,定义 NLTokenizer 实例如下:


let tokenizer = NLTokenizer(unit: .word)
复制代码


其参数 unit 确定要解析的元素类型,枚举如下:


public enum NLTokenUnit : Int, @unchecked Sendable {    // 以单词为基础进行拆解    case word = 0     // 以句子为基础进行拆解    case sentence = 1    // 以段落为基础进行拆解    case paragraph = 2     // 以文档为基础,此模式下会返回原字符串    case document = 3 }
复制代码


调用如下的方法即可进行拆解任务:


tokenizer.enumerateTokens(in: string.startIndex ..< string.endIndex) { range, attribute in    let word = string[range]    self.showWord(string: String(word), type: attribute)    return true}
复制代码


在回调 block 中,如果需要停止解析,返回 false 即可。解析的结果会将元素属性,所在原字符串中的范围进行返回。其中元素属性结构体定义如下:


public struct Attributes : OptionSet, @unchecked Sendable {
public init(rawValue: UInt)
// 包含数值 public static var numeric: NLTokenizer.Attributes { get } // 包含符号 public static var symbolic: NLTokenizer.Attributes { get } // 包含表情 public static var emoji: NLTokenizer.Attributes { get }}
复制代码


如果上面定义的 3 个静态值都没有命中,则表示当前元素只包含简单文本。


showWord 方法简单实现如下:


func showWord(string: String, type: NLTokenizer.Attributes) {    var t = ""    if type.contains(.emoji) { t.append("[emoji]") }    if type.contains(.numeric) { t.append("[num]") }    if type.contains(.symbolic) { t.append("[sym]") }    if t.isEmpty {        t = "txt"    }    resultLabel.text = (resultLabel.text ?? "").appending("【\(string) - \(t)】")}
复制代码


分别以单词,句子和段落的模式进行拆解,效果如下所示:





可以看到,整体来说 NaturalLanguage 对于中文的解析能力还是比较强大的。

3 - 再看 NLTokenizer 类

NLTokenizer 类专门用来对文本进行拆解,本身比较简单。其中的 NLTokenUnit 用来设置拆解模式,内部 Attributes 结构体可以标记出所拆解出的元素所包含的属性。NLTokenizer 类本身定义如下:


open class NLTokenizer : NSObject {    // 初始化方法,设置拆解模式    public init(unit: NLTokenUnit)    // 拆解单元模式    open var unit: NLTokenUnit { get }    // 进行处理的字符串    open var string: String?    // 设置文本所使用的语言,如果不设置可以自行解析    open func setLanguage(_ language: NLLanguage)    // 解析文本某个位置的元素    public func tokenRange(at index: String.Index) -> Range<String.Index>    // 解析文本某个范围的元素    public func tokenRange(for range: Range<String.Index>) -> Range<String.Index>    // 枚举出所有元素    public func enumerateTokens(in range: Range<String.Index>, using block: (Range<String.Index>, NLTokenizer.Attributes) -> Bool)    // 解析所有元素    public func tokens(for range: Range<String.Index>) -> [Range<String.Index>]}
复制代码


拆解往往是自然语言分析的第一步,通常我们会将长文本进行拆解,之后在对每个元素进行语言类型分析或语义分析,以及词汇的词性分析等,后面的文章会具体再做介绍。

发布于: 刚刚阅读数: 4
用户头像

珲少

关注

还未添加个人签名 2022-07-26 加入

还未添加个人简介

评论

发布
暂无评论
iOS MachineLearning 系列(10)—— 自然语言分析之文本拆解_珲少_InfoQ写作社区