登录
主页
掩码语言模型(MLM)
2025-01-19
  
933
极深®数据
掩码语言模型(Masked Language Model,MLM)是自然语言处理(NLP)中一种重要的预训练任务,尤其在基于深度学习的语言模型中被广泛使用。它是一种自监督学习技术,让模型学习语言的语义和语法规则。
一、发展历程
在 MLM 出现之前,早期的语言模型主要基于统计方法,如 ngram 模型。这些模型通过统计文本中单词出现的频率和连续 n 个单词的组合频率,来预测下一个单词或生成文本。然而,它们存在局限性,无法很好地捕捉语义信息和长距离依赖关系。例如,对于句子 \"I love to play [?] in the park\",简单的 ngram 模型可能仅根据前面几个单词的统计信息预测 [?] 处的单词,而难以考虑更广泛的上下文和语义信息。
Word2Vec 等词向量技术的出现是一个重要的里程碑。它通过 Skipgram 和 CBOW 等算法将单词表示为低维向量,为后续的语义理解奠定了基础。虽然 Word2Vec 开始考虑了词汇的语义相似性,但它主要是基于局部的上下文信息,仍然没有很好地解决长距离依赖问题。不过,它为 MLM 中利用上下文预测单词的思想提供了灵感,例如,Word2Vec 的 Skipgram 模式通过中心词预测周围词,在一定程度上展示了利用上下文信息的重要性。
BERT(Bidirectional Encoder Representations from Transformers)是 MLM 发展的一个关键转折点。BERT 正式将 MLM 作为其主要的预训练任务之一,同时引入了另一个任务——下一句预测(Next Sentence Prediction,NSP)。
在 MLM 任务中,BERT 会随机掩码大约 15% 的单词,并使用双向的 Transformer 架构来预测这些被掩码的单词。例如,对于句子 \"The dog chased the [?] in the park\",BERT 会综合整个句子的信息,从左右两侧的上下文(\"The dog chased\" 和 \"in the park\")来预测 [?] 处的单词,这比以往的模型有了很大的进步。BERT 的成功表明 MLM 可以有效地让模型学习到丰富的语义和语法信息,为各种下游任务提供强大的预训练基础。
二、工作原理
1. 掩码操作:
在输入文本中,会随机将一些单词(通常是一定比例,如15%)用特殊的标记(例如 [?] )替换。例如,对于句子 \"I love to play football\",可能会变成 \"I [?] to play football\"。这些被替换的单词就是模型需要预测的目标。
2. 预测过程:
模型会接收这个带有掩码标记的句子作为输入,然后根据句子的上下文信息,尝试预测出被掩码的单词。在上述例子中,模型会利用 \"I... to play football\" 这样的上下文信息,来预测出 [?] 位置可能是 \"love\" 这个词。
为了做出准确的预测,模型需要学习到很多语言知识,包括词汇的语义和语法结构。例如,它要理解 \"love\" 这个词可以和 \"I\"、\"to play football\" 合理搭配,形成一个有意义的句子,而不是其他不相关的词。
三、改进和扩展
1. 不同的掩码策略:
为了进一步优化 MLM,后续研究探索了不同的掩码策略。一些研究指出 BERT 原始的随机掩码可能不够优化,因为它可能导致模型在预训练和微调阶段存在差距。
例如,有研究提出了动态掩码,即在不同训练轮次中对同一文本采用不同的掩码方式,使模型在不同的训练阶段看到不同的掩码模式,增强模型的鲁棒性和泛化能力。
还有一些研究根据单词的频率、词性等信息进行更有针对性的掩码,避免过度掩码常见词或罕见词,使模型能够更全面地学习语言的各个方面。
2. 与其他预训练任务的结合:
除了单独使用 MLM,研究者将其与其他预训练任务相结合,以进一步提升模型性能。
如 ELECTRA 模型,它使用了一种生成器 判别器的架构,生成器执行 MLM 任务,判别器判断输入中的单词是否被替换过,通过这种对抗训练的方式提高了模型对文本的理解能力。
此外,一些模型将 MLM 与文本生成任务、句子排序任务等结合,以挖掘更多的语言信息。
3.多语言预训练:
随着对多语言处理的需求增加,MLM 开始应用于多语言环境。模型会在包含多种语言的大规模语料库上进行 MLM 训练,如 mBERT(Multilingual BERT),它可以同时学习多种语言的语义和语法知识。
例如,在处理英语、法语、德语等多语言文本时,mBERT 可以利用 MLM 学习不同语言之间的共性和差异,为跨语言任务(如机器翻译、跨语言信息检索)提供支持。
4. 跨语言预训练的创新:
一些研究进一步发展了跨语言的 MLM,例如 XLM(Crosslingual Language Model)系列。它们采用更复杂的架构和训练策略,使模型能够更好地在不同语言之间进行语义映射和信息迁移。
例如,在跨语言的文本分类任务中,通过跨语言的 MLM 训练,模型可以利用源语言的语义信息来帮助理解和分类目标语言的文本,实现更高效的跨语言处理。
四、应用领域
1. 文本分类:
情感分析:
在对产品评论、电影评论、社交媒体帖子等的情感分析中,MLM 预训练后的模型可以更好地理解文本的语义信息。例如,对于用户的产品评论“这个手机的性能 [?] 非常出色,我很喜欢”,MLM 预训练使模型能更准确地理解“出色”等词汇表达的积极情感,进而判断该评论为正面情感,帮助将评论分类为积极或消极情感类别。
新闻分类:
当对大量的新闻文章进行分类,如将其分为政治、经济、体育、娱乐等类别时,MLM 训练的模型能更好地理解新闻文本的语义,根据文章中提到的关键信息,如“选举”“经济增长”“比赛得分”“电影首映”等,来判断文章属于哪一类别。例如,一篇新闻文章中出现“总统候选人在 [?] 中领先”,模型可以根据上下文预测 [?] 处可能是“选举”,从而将该文章归为政治类。
2. 信息检索:
语义搜索:
在搜索引擎中,MLM 训练的模型可以用于语义理解。当用户输入搜索查询时,模型可以根据预训练学到的语义信息,对查询和文档进行更精确的匹配,而不仅仅是关键词匹配。例如,用户搜索“人工智能如何影响就业市场”,模型能理解“影响”和“改变”“冲击”等词的相似性,从而找到更相关的文档,而不是仅匹配包含“影响”一词的文档。
文档推荐:
对于文档推荐系统,MLM 有助于根据用户的历史阅读内容和当前正在阅读的内容,推荐语义相关的文档。如果用户正在阅读一篇关于“气候变化对农业的影响”的文章,模型能理解其中的语义,从而为其推荐类似“环境变化对农作物产量的影响”的文章,因为它能把握文章之间的语义相似性。
3. 机器翻译:
翻译质量提升:
MLM 预训练可以帮助机器翻译系统更好地理解源语言的语义。例如,在将英语句子“The cat sat on the mat”翻译成中文时,MLM 可以帮助模型理解“cat”“mat”等词汇在句子中的语义,以及它们之间的关系,从而更准确地翻译成“猫坐在垫子上”,而不是简单的逐词翻译。
跨语言信息处理:
在处理多语言信息时,如将多种语言的文档集合翻译成目标语言,MLM 训练的模型可以理解不同语言的语义,有助于找到不同语言之间的对应关系。对于“Je suis content”(法语)和“I am happy”(英语),MLM 可以帮助找到它们之间的语义对等关系,提高跨语言翻译的准确性。
4. 问答系统:
问题理解:
对于用户提出的问题,MLM 训练的模型可以更好地理解问题的语义。例如,对于问题“如何提高 [?] 的工作效率”,模型可以根据上下文信息,预测 [?] 可能是“团队”或“个人”等,从而更准确地在知识库中寻找答案。
答案生成:
在根据用户问题生成答案时,MLM 训练的模型可以利用其对语义的理解,生成更符合用户需求的答案。例如,用户问“人工智能在医疗中的应用有哪些”,模型可以根据对语义的理解,从医学知识库中提取出如“辅助诊断”“药物研发”等信息作为答案。
5. 语音识别到文本转换:
在将语音转换为文本的过程中,MLM 训练的模型可以辅助理解转换后的文本语义。例如,对于一段语音转换后的文本“我要去 [?] 物”,模型可以根据上下文和语言知识,准确判断 [?] 处是“购”,提高语音识别系统的准确性。
6. 语音助手服务:
对于语音助手,MLM 训练的模型可以更好地理解用户的语音指令。例如,当用户说“播放一首 [?] 的歌曲”,模型可以预测 [?] 可能是“流行”“摇滚”等,帮助语音助手更好地满足用户需求。
7. 图像描述生成:
在为图像生成描述时,MLM 训练的模型可以帮助生成更自然和语义准确的描述。例如,对于一张有小孩踢球的图片,模型可以根据对语言的理解生成“一个小孩正在草地上踢足球”,而不是简单的“小孩在踢球”,使描述更丰富和准确。
8. 视觉问答:
当用户对图像提出问题,如“图中人物在 [?] 做什么”,MLM 训练的模型可以更好地理解问题,并结合图像信息回答问题,预测 [?] 可能是“草坪上”,提高视觉问答系统的性能。
点赞数:5
© 2021 - 现在 杭州极深数据有限公司 版权所有 联系我们 
浙公网安备 33018302001059号  浙ICP备18026513号-1号