请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?-CDA数据分析师官网

热线电话：13121318867

首页大数据时代请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?

请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?

2023-04-10

自然语言处理（NLP）是人工智能领域中一个快速发展的分支，它提供了许多技术和方法来对自然语言进行处理。其中，词嵌入（word embedding）是NLP中最重要的技术之一，因为它允许将自然语言转换为计算机可以理解和处理的向量表示形式。

BERT（Bidirectional Encoder Representations from Transformers）是一种有监督的预训练模型，它使用了Transformer架构，并在大型语料库上进行了训练，可以用于各种自然语言处理任务，如文本分类、句子配对等。

BERT模型的输出包含多个层级，其中第一层是输入层，最后一层是输出层，而在中间的隐藏层中，每一个单词都被映射到一个低维度的向量空间中。这些向量就是所谓的BERT词嵌入。

提取BERT词嵌入非常简单，只需要将文本输入BERT模型中，并获取相应隐藏层的输出即可。具体步骤如下：

首先，我们需要安装相应的Python库，包括transformers和torch。可以使用以下命令来安装这些库：

!pip install transformers
!pip install torch

接下来，加载BERT模型并设置为评估模式，以保证Dropout和BatchNormalization层不会被激活。我们可以使用以下代码完成这一步骤：

from transformers import BertTokenizer, BertModel

# 加载BertTokenizer和BertModel
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertModel.from_pretrained('bert-base-uncased')

# 设置为评估模式
model.eval()

然后，我们需要将文本转换为BERT可接受的输入格式。具体来说，我们需要使用BertTokenizer对文本进行分词，并将结果转换为BERT的输入ID和Attention Mask张量。以下是一个示例代码：

text = "I love natural language processing."
tokens = tokenizer.tokenize(text)
input_ids = torch.tensor([tokenizer.convert_tokens_to_ids(tokens)])
attention_mask = torch.ones_like(input_ids)

最后，我们可以将输入张量传递给BERT模型并获取相应的隐藏层输出。具体来说，我们将输入ID和Attention Mask张量传递给BertModel，并获取相应的所有隐藏层输出。以下是一个示例代码：

with torch.no_grad():
  outputs = model(input_ids, attention_mask=attention_mask)

hidden_states = outputs[2]

在此示例中，我们获取了BERT模型的所有隐藏层输出，可以根据需要选择其中任意一层作为词嵌入。

总之，BERT是一种非常强大的预训练模型，可以用于各种自然语言处理任务。它的词嵌入提取非常简单，只需要将文本输入BERT模型中，并获取相应隐藏层的输出即可。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

自然语言处理 NLP 有监督文本分类人工智能

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇逻辑回归与决策树有什么区别?

下一篇卷积神经网络为什么要加一层降采样层呢？

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

请问如何用nlp预训练模型做word embedding ，如bert怎么提取出embedding?

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】数据分析核心技能体系：从工具落地到业 ...

【CDA干货】企业价值市场法价值比率与线性回归分析 ...

从“零散明细”到“多维洞察”：CDA数据分析师视角 ...

CDA持证人专访：赵君研谈金融行业数据分析与运营岗 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“静态数据”到“动态资产”：CDA数据分析师视角 ...

CDA持证人专访：贺译册谈产品经理的市场洞察力与数 ...

【CDA干货】多维度对比评估：分析逻辑与可视化效果 ...

从“单元格”到“字段”：CDA数据分析师视角下的表 ...

【CDA干货】漏斗拆解：核心逻辑、实操方法与业务优 ...

【CDA干货】SQL数值转日期函数全解析：主流数据库语 ...

数据分析必修课：CDA数据分析师视角下的表格结构数 ...

CDA持证人专访：杨旭谈数据产品经理的工作实践与核 ...

【CDA干货】Python变量定义与类实例化：核心原理、 ...

从“单元格”到“洞察”：CDA数据分析师视角下的表 ...

【CDA干货】联合索引与覆盖索引：本质区别、实战场 ...

【CDA干货】维度表与事实表：数据仓库建模的核心逻 ...

从“指标堆砌”到“体系落地”：CDA数据分析师视角 ...

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载