变压器型号代码和应用
原论文:Attention Is All You Need
在这篇博客中,transformer模型主要用于翻译,中译英,但是这里主要注重的是模型的代码。
具体应用的例子放在最后,大家有兴趣的可以看看。
首先,让我们来了解一下transformer的两个部分,也就是encoder和decoder
在这里,我们的transformer模型是由6个编码器(encoder)和6个解码器(decoder)组成的,他们的数量可以自己定义,论文中用的是6个,所以我们在这里也是用的6个,
需要注意的是,这6个encoder的结构虽然是一摸一样的,但是它的参数是不一样的,它们每一个的参数都是独立训练的;同时,encoder和decoder的结构也是不同的。
下面,我们来看一下,原论文中的transformer模型:
左边是encoder,右边是decoder,可以看出来,他们的内部结构是不同的。
准备部分
这部分是为了让后面的代码成功运行,不报错。
import math
import numpy as np
import torch
from torch.utils.data import Dataset,DataLoader
from torch import nn
# --------------------------手动代码构造句子----------------------------------
# 训练集
train_data=[
['我 有 一 个 好 朋 友 P', 'S I have a good friend .', 'I have a good friend . E'],
['我 有 零 个 女 朋 友 P', 'S I have zero girl friend .', 'I have zero girl friend . E'],
['我 有 一 个 男 朋 友 P', 'S I have a boy friend .', 'I have a boy friend . E']
]
# 建立源词库,用于将中文转化为数字序列
source= {'P': 0, '我': 1, '有': 2, '一': 3,
'个': 4, '好': 5, '朋': 6, '友': 7, '零': 8, '女': 9, '男': 10}
# 字典推导式,i为索引(整数),w为对应的中文字符或特殊符号
source_index={i:w for i,w in enumerate(source)}
source_size=len(source)
# 建立目标词库,用于将英文转化为数字序列,并在解码时将数字序列转为英语
target={'P': 0, 'I': 1, 'have': 2, 'a': 3, 'good': 4,
'friend': 5, 'zero': 6, 'girl': 7, 'boy': 8, 'S': 9, 'E': 10, '.': 11}
target_index={i:w for i,w in enumerate(target)}
target_size=len(target)
source_len=8
target_len=7
device='cuda'
# ---------------------------------将数字序列转为tensor----------------------------
def to_tensor(train_data):
enc_inputs,dec_inputs,dec_outputs=[],[],[]
for i in range(len(train_data)):
enc_input = [[source[n] for n in train_data[i][0].split()]]
dec_input = [[target[n] for n in train_data[i][1].split()]]
decr_output = [[target[n] for n in train_data[i][2].split()]]
enc_inputs.extend(enc_input)
dec_inputs.extend(dec_input)
dec_outputs.extend(decr_output)
# print("编码器输入的数字序列:{}".format(encoder_inputs))
# print("解码器输入的数字序列:{}".format(decoder_inputs))
# print("解码器输出的数字序列:{}".format(decoder_outputs))
# print(torch.tensor(encoder_inputs))
# print(torch.LongTensor(encoder_inputs))
return torch.LongTensor(enc_inputs),torch.LongTensor(dec_inputs),torch.LongTensor(dec_outputs)
enc_inputs,dec_inputs,dec_outputs=to_tensor(train_data)
# ----------------------------------自定义数据集----------------------------------
class Data_set(Dataset):
def __init__(self,enc_inputs,dec_inputs,dec_outputs):
super(Data_set,self).__init__()
self.enc_inputs=enc_inputs
self.dec_inputs=dec_inputs
self.dec_outputs=dec_outputs
def __len__(self):
return self.enc_inputs.shape[0]
def __getitem__(self, item):
return self.enc_inputs[item],self.dec_inputs[item],self.dec_outputs[item]
data_loader=DataLoader(Data_set(enc_inputs,dec_inputs,dec_outputs),2,True)
# 参数设置
d_model = 512 # Embedding Size(token embedding和position编码的维度)
# FeedForward dimension (两次线性层中的隐藏层 512->2048->512,线性层是用来做特征提取的),当然最后会再接一个projection层
d_ff = 2048
d_k = d_v = 64 # dimension of K(=Q), V(Q和K的维度需要相同,这里为了方便让K=V)
n_layers = 6 # number of Encoder of Decoder Layer(Block的个数)
n_heads = 8 # number of heads in Multi-Head Attention(有几个头)
encoder
我们可以看出,encoder主要分为3部分,即input(输入),multi-head attention(多头注意力机制)和feed forward(前馈神经网络),我们分开来解析。
positional encoding 位置编码
在这里,我们首先要知道为什么要使用位置编码。
原理
假如我们的输入这么几个字:1班2号,位置编码就能够识别每个字的位置,就能知道,哦,你是1班2号。
如果没有位置编码呢?我们的输入就是相当于几个独立的,没有顺序的字,既然如此,1班2号和2班1号是没有区别的。要知道,transformer经常被运用于机器翻译、文本生成等,元素的顺序是非常关键的。单词在句子中的位置以及排列顺序不仅是句子语法结构的组成部分,更是表达语义的重要概念。
那么transformer是怎么实现它得呢?
这主要利用了下面的公式:
pos是字,2i和2i+1分别代表偶数和奇数位置,在偶数使用sin,奇数使用cos
举个栗子:班这个字为pos,它有512个维度,在0,2,4 .....510这些偶数位置使用的就是sin,而1,3.....511这些位置使用的就是cos
然后将字向量的512维度和位置编码的512个维度相加,最终就得到了transformer的输入。
代码实现
class Position_encoding(nn.Module):
# dropout减少过拟合,增强鲁棒性,max_len为数字序列的最大长度
def __init__(self,d_module,dropout=0.1,max_len=5000):
super(Position_encoding,self).__init__()
self.dropout=nn.Dropout(p=dropout)
# pe是输入序列
pe=torch.zeros(max_len,d_module)
# 位置索引张量
position=torch.arange(0,max_len,dtype=torch.float).unsqueeze(1)
div_term=torch.exp(torch.arange(0,d_model,2).float()*(-math.log(10000.0)/d_model))
# 偶数位置编码
position[:,0::2]=torch.sin(position*div_term)
# 奇数位置编码
position[:,1::2]=torch.cos(position*div_term)
# 将位置编码的维度与输入序列的维度对齐
pe=pe.unsqueeze(0).transpose(0,1)
# buffer通常用于存储那些不需要在训练过程中更新的数据
self.register_buffer('pe',pe)
def forward(self,x):
# x: [seq_len, batch_size, d_model]
# 将位置编码信息添加到输入序列的嵌入中
x=x+self.pe[:x.size(0),:]
return self.dropout(x)
用于生成并添加位置编码到输入序列的嵌入中,接收的参数为d_module
position=torch.arange(0,max_len,dtype=torch.float).unsqueeze(1)
max_len 为了便于演示,我这里取12,实际上可能是512,即输入序列的维度
div_term=torch.exp(torch.arange(0,d_model,2).float()*(-math.log(10000.0)/d_model))
对应的数学公式如下:
multi-head attention 多头注意力
原理
注意力机制(Attention Mechanism)是一种模拟人类注意力分配的计算模型,用于在机器学习和深度学习中提高模型性能。它源于对人类视觉的研究,并模仿了人类在处理信息时选择性地关注重要部分、忽略其他信息的机制。注意力机制的核心思想是让模型能够有选择性地关注输入序列中的不同部分,为输入序列的各个部分分配不同的权重,以此来突出对任务更关键的信息。
让我们举个栗子:
在这张图片中,颜色越深,代表人们的注意力关注的越多。
当我们看这个图片的时候,我们会先注意到婴儿的脸,然后是标题和首个句子。
下面是公式注意力机制的公式:
首先是Q,K,V三个矩阵,分别是query查询矩阵,key键矩阵,value值矩阵。那么他们是怎么得到的呢?通过对输入序列的每个元素(例如,词嵌入向量)分别与权重矩阵WQ,WK,WV进行线性变换得到。
接下来是Q*K_T,他们是在干嘛呢,他们其实是在判断查询矩阵和键矩阵的相似性,做了点积。
点积的公式:
cos的图像我们也知道,这两个矩阵越相似,点积结果越大。
为什么会有除呢?我们要知道,这两个点积,他们的结果可能很大,然后进行softmax时,他的梯度就可能很小,造成梯度消失。之所以是除以根号d_k是为了保证方差为1
然后进行softmax归一化,得到概率值, 也就是相似度。然后和value相乘,最终相加,得到加权和。
上面就是注意力机制。理解了注意力机制之后,多头注意力就很好理解了。
在多头注意力中,我们会用多个权重矩阵,主要有以下作用。
一、增强模型表达能力
- 捕捉不同子空间信息:每个权重矩阵都代表了一个不同的线性变换,这些变换能够将输入数据投射到不同的表示子空间上。这样,每个注意力头都能够学习到输入数据的不同方面,捕捉到更丰富的特征信息。
- 多样化特征提取:不同的权重矩阵允许每个注意力头专注于输入数据的不同特征,如语义信息、句法结构等。这种多样化特征提取方式有助于模型更全面地理解输入数据。
二、提高计算效率和并行性
- 并行计算:多头注意力机制通过并行处理多个注意力头,可以同时计算多个子空间的注意力权重,从而显著提高计算效率。
- 减少计算复杂度:虽然使用了多个权重矩阵,但每个权重矩阵的维度通常较小,这使得单个头的计算量相对较小。同时,由于并行计算的优势,整体计算效率得以提升。
三、优化模型训练
- 权重共享与独立:虽然每个注意力头都使用独立的权重矩阵,但在某些实现中,这些权重矩阵的某些部分可能会共享参数,以减少模型参数量并避免过拟合。同时,独立的权重矩阵也使得每个头能够学习到更加独特和专注的特征。
- 灵活性:多个权重矩阵的引入增加了模型的灵活性,使得模型能够在训练过程中学习到更复杂的特征变换和关系。这种灵活性有助于模型更好地适应不同的任务和数据集。
四、特征融合与变换
- 特征融合:在多头注意力机制的最后一步,通常会将多个头的输出进行拼接,并通过一个额外的权重矩阵进行线性变换。这个权重矩阵的作用是将不同头学习到的特征有效地融合在一起,形成更加丰富和全面的特征表示。
- 维度控制:通过调整这个额外权重矩阵的维度,可以控制最终输出特征矩阵的大小,使其与输入特征矩阵保持一致或满足其他特定要求。
代码
首先,我们先敲出多头注意力公式的代码
# ------------------------------------多头注意力公式-------------------------------------------
class ScaledDotProductAttention(nn.Module):
def __init__(self):
super(ScaledDotProductAttention,self).__init__()
def forward(self,Q,K,V,attn_mask):
# Q: [batch_size, n_heads, len_q, d_k]
# K: [batch_size, n_heads, len_k, d_k]
# V: [batch_size, n_heads, len_v( = len_k), d_v]
# attn_mask: [batch_size, n_heads, seq_len, seq_len]
# 说明:在encoder - decoder的Attention层中len_q(q1,..qt)和len_k(k1, ... km)可能不同
# 将倒数第一个维度和倒数第二个维度进行转置
scores=torch.matmul(Q,K.transpose(-1,-2))/np.sqrt(d_k)
# scores : [batch_size, n_heads, len_q, len_k]
# mask矩阵填充scores(用-1e9填充scores中与attn_mask中值为1位置相对应的元素)
scores.masked_fill_(attn_mask,-1e9)
attn=nn.Softmax(dim=-1)(scores)
# scores : [batch_size, n_heads, len_q, len_k] * V: [batch_size, n_heads, len_v(=len_k), d_v]
# context: [batch_size, n_heads, len_q, d_v]
context = torch.matmul(attn, V)
return context,attn
这里的attn指的使注意力权重。
然后是多头注意力整体的
# ------------------------------------MultiHeadAttention多头注意力-------------------------------
class MultiHeadAttention(nn.Module):
def __init__(self):
super(MultiHeadAttention,self).__init__()
# 输入:seq_len*d_module
self.W_Q=nn.Linear(d_model,d_k*n_heads,bias=False)
self.W_K=nn.Linear(d_model,d_k*n_heads,bias=False)
self.W_V=nn.Linear(d_model,d_v*n_heads,bias=False)
# 这个全连接层可以保证多头attention的输出仍然是seq_len x d_model
self.fc=nn.Linear(d_v*n_heads,d_model,bias=False)
def forword(self,input_Q,input_K,input_V,attn_mask):
# input_Q: [batch_size, len_q, d_model]
# 残差 批次
residual,batch_size=input_Q,input_K.size(0)
Q=self.W_Q(input_Q).view(batch_size,-1,n_heads,d_k).transpose(1,2)
K=self.W_K(input_K).view(batch_size, -1, n_heads, d_k).transpose(1, 2)
V=self.W_V(input_V).view(batch_size,-1,n_heads,d_v).transpose(1,2)
# 因为是多头,所以mask矩阵要扩充成4维的
# attn_mask: [batch_size, seq_len, seq_len] -> [batch_size, n_heads, seq_len, seq_len]
attn_mask=attn_mask.unsqueeze(1).repeat(1,n_heads,1,1)
context,attn=ScaledDotProductAttention()(Q,K,V,attn_mask)
# 下面将不同头的输出向量拼接在一起
# context: [batch_size, n_heads, len_q, d_v] -> [batch_size, len_q, n_heads * d_v]
context=context.transpose(1,2).reshape(batch_size,-1,n_heads*d_v)
# 这个全连接层可以保证多头attention的输出仍然是seq_len x d_model
output=self.fc(context)
return nn.LayerNorm(d_model).to(device)(output+residual),attn
PoswiseFeedForwardNet前馈传播网络
很基础的一部分,所以我们这里直接上代码
# ---------------------------------PoswiseFeedForwardNet前馈传播网络--------------------------------------
class PoswiseFeedForwardNet(nn.Module):
def __init__(self):
super(PoswiseFeedForwardNet,self).__init__()
self.fc=nn.Sequential(
nn.Linear(d_model,d_ff,bias=False),
nn.ReLU(),
nn.Linear(d_ff,d_model,bias=False)
)
def forward(self,inputs):
# inputs=[batch_size,seq_len,d_module]
residual=inputs
outputs=self.fc(inputs)
return nn.LayerNorm(d_model).to(device)(outputs+residual)
单层encoder
class EncoderLayer(nn.Module):
def __init__(self):
super(EncoderLayer,self).__init__()
self.self_attention=MultiHeadAttention()
self.feed_forward=PoswiseFeedForwardNet()
def forward(self,enc_inputs,enc_outputs,enc_mask):
# enc_inputs: [batch_size, source_len, d_model]
# enc_mask: [batch_size, source_len, source_len] mask矩阵
# attn: [batch_size, n_heads, src_len, src_len]
# 第一个enc_inputs * W_Q = Q
# 第二个enc_inputs * W_K = K
# 第三个enc_inputs * W_V = V
# enc_inputs to same Q, K, V(未线性变换前),在 MultiHeadAttention中他们会被线性转换为不同的 Q,K,V
enc_outputs,attn=self.self_attention(enc_inputs,enc_inputs,enc_inputs,enc_mask)
enc_outputs=self.feed_forward(enc_outputs)
return enc_outputs,attn
在单层的编码器中,我们需要将各部分按图所示组合起来:
就是将多头注意力和前馈传播网络组合起来。
一个注意力权重矩阵attn
记录了每个头在每个位置上的注意力分布 ,我们将这部分代码与多头注意力部分联系起来就好懂了。
最终得到了在这一层编码器中的编码器输出和这部分的注意力权重。既然有了一层的,肯定会有多层的,但是我们不着急弄多层的,大家肯定对注意力掩码这部分有疑惑,我们趁此机会,先把注意力掩码的代码搞懂。
注意力机制的填充掩码padding mask
def get_attn_pad_mask(seq_q,seq_k):
# seq_q: [batch_size, seq_len]
# seq_k: [batch_size, seq_len]
batch_size,len_q=seq_q.size()
batch_size,len_k=seq_k.size()
seq_k.data.eq(0)
# 检查seq_k中的每个元素是否等于0(通常0表示填充)。这会返回一个布尔张量,其中True表示对应位置是填充。
pad_attn_mask=seq_k.data.eq(0).unsquee(1)
return pad_attn_mask.expand(batch_size,len_q,len_k)
在这里,我们的seq-q和seq-k只是用来表示两个可能不同的序列集合,它们的实际含义取决于函数被调用的上下文。
然后检查seq-k是否有0,返回布尔张量,然后增加一个维度,最后将它扩充成
(batch_size,len_q,len_k)
的形状,最终返回的是布尔张量
注意力掩码
def get_attn_subsequence_mask(seq):
# seq: [batch_size, target_len]
attn_shape=[seq.size(0),seq.size(1),seq.size(1)]
# attn_shape: [batch_size, target_len,target_len]
subsequence_mask=np.triu(np.ones(attn_shape),k=1)
subsequence_mask=torch.from_numpy(subsequence_mask).byte()
return subsequence_mask
为什么我们要把attn-shape是[batch_size, target_len,target_len]不是[batch_size, target_len]呢
如果我们使用 [batch_size, target_len]
的形状,那么我们只能为每个序列位置存储一个单一的权重值,而不是一个与其他所有位置相关的权重向量。这将无法捕捉到序列中不同位置之间的相互作用,这是自注意力机制的核心功能之一。
知道了这个之后,我们就可以理解为什么是这个形状了:
第一个维度 batch_size
表示批次中的序列数量。
第二个维度 target_len
表示我们正在处理序列中的哪个位置(即查询位置)。
第三个维度 target_len
(与第二个维度相同)表示我们正在计算与序列中哪个位置的注意力权重(即键位置)。
然后使用NumPy生成一个形状为attn_shape的全1矩阵,并通过np.triu函数将其转换为上三角矩阵(包括对角线以上的一行)。k=1表示对角线以上的第一行及以上的元素为1,对角线及以下的元素为0。
最后将NumPy数组转换为PyTorch张量,并使用.byte()方法将其数据类型转换为torch.uint8(即布尔类型在PyTorch中的表示)。
encoder整体
指的是下图部分:
class Encoder(nn.Module):
def __init__(self):
super(Encoder,self).__init__()
self.source_embedding=nn.Embedding(source_size,d_model)
# transformer中的位置编码是固定的,不需要学习
self.pos_embedding=Position_encoding(d_model)
# 初始化一个编码器层(EncoderLayer)的堆叠
self.layers=nn.ModuleList([EncoderLayer() for _ in range(n_layers)])
def forward(self,encoder_inputs):
# encoder_inputs: [batch_size, source_len]
# 该层会为每个索引查找对应的嵌入向量。由于每个序列有source_len个词汇或子词,并且每个词汇或子词都被转换为一个d_model维的向量,
# 因此输出的形状就是[batch_size, source_len, d_model]。
enc_outputs=self.source_embedding(encoder_inputs) # [batch_size, source_len, d_model]
#Position_encoding要求的输入形状为[seq_len, batch_size, d_model],所以我们要先转换为要求形状,然后再转换回来。
enc_outputs=self.pos_embedding(enc_outputs.transpose(0,1)).transpose(0,1) # [batch_size, source_len, d_model]
enc_self_attn_pad_mask=get_attn_pad_mask(encoder_inputs,enc_outputs) # [batch_size, source_len, source_len]
enc_self_attns=[] # 在计算中不需要用到,它主要用来保存你接下来返回的attention的值(这个主要是为了你画热力图等,用来看各个词之间的关系
for layer in self.layers:
# 上一个block的输出enc_outputs作为当前block的输入
# enc_outputs: [batch_size, source_len, d_model], enc_self_attn: [batch_size, n_heads, source_len, source_len]
# 传入的enc_outputs其实是input,传入mask矩阵是因为要做self attention
enc_outputs,enc_self_attn=layer(enc_outputs,enc_self_attn_pad_mask)
enc_self_attns.append(enc_self_attn) #可视化用
return enc_outputs,enc_self_attns
ok,现在encoder部分的代码就差不多弄好了
下面就是decoder部分啦
decoder
让我们回忆一下decoder的结构
单层decoder
代码
class DecoderLayer(nn.Module):
def __init__(self):
super(DecoderLayer,self).__init__()
self.dec_self_attn=MultiHeadAttention()
self.dec_enco_attn=MultiHeadAttention()
self.pos_ffn=PoswiseFeedForwardNet()
# 解码器自注意力掩码dec_self_attn_mask
def forward(self,dec_inputs,enc_outputs,dec_self_attn_mask,dec_enco_attn_mask):
# dec_inputs: [batch_size, target_len, d_model]
# enc_outputs: [batch_size, source_len, d_model]
# dec_self_attn_mask: [batch_size, target_len, target_len]
# dec_enco_attn_mask: [batch_size, target_len, source_len]
# dec_outputs: [batch_size, target_len, d_model], decoder_self_attn: [batch_size, n_heads, target_len, target_len]
# 这里的Q,K,V全是Decoder自己的输入
dec_outputs,dec_self_attn=self.dec_self_attn(dec_inputs,dec_inputs,dec_inputs,dec_enco_attn_mask)
# dec_outputs: [batch_size, target_len, d_model], dec_enc_attn: [batch_size, h_heads, target_len, source_len]
# Attention层的Q(来自decoder) 和 K,V(来自encoder)
dec_outputs,dec_enc_attn=self.dec_enco_attn(dec_outputs,enc_outputs,enc_outputs,dec_enco_attn_mask)
# [batch_size, target_len, d_model]
dec_outputs=self.pos_ffn(dec_outputs)
# dec_self_attn, dec_enc_attn这两个是为了可视化的
return dec_outputs,dec_self_attn,dec_enc_attn
解析
这里,dec_self_attn指的是解码器自注意力机制,而dec_enco_attn指的是编码器-解码器注意力机制
自注意力机制允许解码器中的每个位置都能关注到输入序列的所有位置(包括它自己)。
编码器-解码器注意力机制允许解码器中的每个位置都能关注到编码器输出的所有位置,这是理解输入序列并生成相应输出序列的关键。
dec_outputs,dec_self_attn=self.dec_self_attn(dec_inputs,dec_inputs,dec_inputs,dec_enco_attn_mask)
dec_outputs,dec_enc_attn=self.dec_enco_attn(dec_outputs,enc_outputs,enc_outputs,dec_enco_attn_mask)
我在学习代码的过程中被这两行迷惑了,就感觉有点迷,所以这里放一下它们两个的具体解析
第一行是通过解码器自注意力机制(self.dec_self_attn
)处理解码器的输入,得到处理后的输出dec_outputs
和自注意力权重dec_self_attn
。这里的查询(Q)、键(K)、值(V)都来自解码器的输入。对应图中的Msked Muti-head attention
第二行是通过编码器-解码器注意力机制(self.dec_enc_attn
)处理上一步的输出,得到进一步处理后的输出dec_outputs
和编码器-解码器注意力权重dec_enc_attn
。这里的查询(Q)来自解码器,而键(K)和值(V)来自编码器的输出。对应着Muti-head attention。
最后通过前馈传播部分,得到最终的dec-output。
decoder整体
代码
class Decoder(nn.Module):
def __init__(self):
super(Decoder,self).__init__()
self.target_embedding=nn.Embedding(target_size,d_model)
self.pos_embedding=Position_encoding(d_model)
self.layers=nn.ModuleList(DecoderLayer() for _ in range(n_layers))
def forward(self,dec_inputs, enc_inputs, enc_outputs):
# dec_inputs: [batch_size, tgt_len]
# enc_inputs: [batch_size, src_len]
# enc_outputs: [batch_size, src_len, d_model] # 用在Encoder-Decoder Attention层
dec_outputs=self.target_embedding(dec_inputs) # [batch_size,target_len,d_model]
dec_outputs=self.pos_embedding(dec_outputs.transpose(0,1)).transpose(0,1) # [batch_size,target_len,d_model]
# Decoder输入序列的pad mask矩阵
dec_self_attn_pad_mask=get_attn_pad_mask(dec_inputs,dec_inputs).to(device) # [batch_size,target_len,target_len]
# Masked self_Attention 当前时刻是看不到未来的信息的
dec_self_attn_subsequence_mask=get_attn_subsequence_mask(dec_inputs).to(device) # [batch_size,target_len,target_len]
#Decoder中把两种mask矩阵相加(既屏蔽了pad的信息,也屏蔽了未来时刻的信息)
# [batch_size, target_len, target_len]; torch.gt比较两个矩阵的元素,大于则返回 1,否则返回0
dec_self_attn_mask=torch.gt((dec_self_attn_pad_mask+dec_self_attn_subsequence_mask),0).to(device)
# 这个mask主要用于encoder - decoder attention层
# get_attn_pad_mask主要是enc_inputs的pad mask矩阵(因为enc是处理K,V的,求Attention时是用v1,v2,..vm去加权的,
# 要把pad对应的v_i的相关系数设为0,这样注意力就不会关注pad向量) dec_inputs只是提供expand的size的
dec_enc_attn_mask=get_attn_pad_mask(dec_inputs,enc_inputs) # [batch_size,target_len,source_len]
dec_self_attns,dec_enc_attns=[],[]
for layer in self.layers:
# dec_outputs: [batch_size, tgt_len, d_model], dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len], dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]
# Decoder的Block是上一个Block的输出dec_outputs(变化)和Encoder网络的输出enc_outputs(固定)
dec_outputs,dec_self_attn,dec_enc_attn=layer(dec_outputs,enc_outputs,dec_self_attn_mask,dec_enc_attn_mask)
dec_self_attns.append(dec_self_attn)
dec_enc_attns.append(dec_enc_attn)
# dec_outputs: [batch_size, tgt_len, d_model]
return dec_outputs,dec_self_attns,dec_enc_attns
解析
首先,通过目标嵌入层和位置编码层处理解码器输入。
然后,生成两种mask:
dec_self_attn_pad_mask:用于屏蔽解码器自注意力层中的pad位置。
dec_self_attn_subsequence_mask:用于确保解码器在生成每个词时只能关注到当前词之前的词(即屏蔽未来信息)。
将这两种mask相加并通过torch.gt转换为布尔mask,其中True表示需要关注的位置,False表示需要屏蔽的位置。
dec_enc_attn_mask:用于编码器-解码器注意力层,屏蔽编码器输出中的pad位置。
遍历解码器层,每层都会处理输入并返回解码器自注意力、编码器-解码器注意力的输出以及解码器的输出。
dec_outputs,dec_self_attn,dec_enc_attn=layer(dec_outputs,enc_outputs,dec_self_attn_mask,dec_enc_attn_mask)
我相信不只我一个人对为什么用这些参数有疑问吧~让我们来看看传递的这些参数是怎么用的。
将这些参数传递给解码器层后,该层会执行以下操作:
- 应用自注意力机制(可能带有掩码)来处理
dec_outputs
,生成新的表示。 - 应用编码器-解码器注意力机制(也可能带有掩码)来结合
enc_outputs
和自注意力的输出,进一步生成新的表示。 - 通过一个或多个前馈神经网络层来处理这些表示,最终输出更新后的
dec_outputs
,以及可选的自注意力权重dec_self_attn
和编码器-解码器注意力权重dec_enc_attn
。
这些输出随后会被传递给下一层解码器(如果有的话),或者作为解码器的最终输出(对于最后一层而言)。通过这种方式,解码器能够逐步构建目标序列的表示,并在每个步骤中利用编码器的输出和先前的目标词信息。
到这里,transformer模型的各个部分就组装好了。
下面就是整体的transformer的整体代码了
transformer整体
class Transformer(nn.Module):
def __init__(self):
super(Transformer,self).__init__()
self.encoder=Encoder().to(device)
self.decoder=Decoder().to(device)
self.projection=nn.Linear(d_model,target_size,bias=False).to(device)
def forward(self,enc_inputs,dec_inputs):
# Transformers的输入:两个序列
# enc_inputs: [batch_size, source_len]
# dec_inputs: [batch_size, target_len]
# tensor to store decoder outputs
# outputs = torch.zeros(batch_size, target_len, tgt_vocab_size).to(self.device)
# enc_outputs: [batch_size, source_len, d_model], enc_self_attns: [n_layers, batch_size, n_heads, source_len,source_len]
# 经过Encoder网络后,得到的输出还是[batch_size, source_len, d_model]
enc_outputs,enc_self_attns=self.encoder(enc_inputs)
# dec_outputs: [batch_size, tgt_len, d_model], dec_self_attns: [n_layers, batch_size, n_heads, tgt_len, tgt_len], dec_enc_attn: [n_layers, batch_size, tgt_len, src_len]
dec_outputs,dec_self_attns,dec_enc_attns=self.decoder(dec_inputs,enc_inputs,enc_outputs)
# dec_outputs: [batch_size, tgt_len, d_model] -> dec_logits: [batch_size, tgt_len, tgt_vocab_size]
dec_logits=self.projection(dec_outputs)
return dec_logits.view(-1,dec_logits.size(-1)),enc_self_attns,dec_self_attns,dec_enc_attns
完整模型
import math
import numpy as np
import torch
from torch.utils.data import Dataset,DataLoader
from torch import nn
# --------------------------手动代码构造句子----------------------------------
# 训练集
train_data=[
['我 有 一 个 好 朋 友 P', 'S I have a good friend .', 'I have a good friend . E'],
['我 有 零 个 女 朋 友 P', 'S I have zero girl friend .', 'I have zero girl friend . E'],
['我 有 一 个 男 朋 友 P', 'S I have a boy friend .', 'I have a boy friend . E']
]
# 建立源词库,用于将中文转化为数字序列
source= {'P': 0, '我': 1, '有': 2, '一': 3,
'个': 4, '好': 5, '朋': 6, '友': 7, '零': 8, '女': 9, '男': 10}
# 字典推导式,i为索引(整数),w为对应的中文字符或特殊符号
source_index={i:w for i,w in enumerate(source)}
source_size=len(source)
# 建立目标词库,用于将英文转化为数字序列,并在解码时将数字序列转为英语
target={'P': 0, 'I': 1, 'have': 2, 'a': 3, 'good': 4,
'friend': 5, 'zero': 6, 'girl': 7, 'boy': 8, 'S': 9, 'E': 10, '.': 11}
target_index={i:w for i,w in enumerate(target)}
target_size=len(target)
source_len=8
target_len=7
device='cuda'
# ---------------------------------将数字序列转为tensor----------------------------
def to_tensor(train_data):
enc_inputs,dec_inputs,dec_outputs=[],[],[]
for i in range(len(train_data)):
enc_input = [[source[n] for n in train_data[i][0].split()]]
dec_input = [[target[n] for n in train_data[i][1].split()]]
decr_output = [[target[n] for n in train_data[i][2].split()]]
enc_inputs.extend(enc_input)
dec_inputs.extend(dec_input)
dec_outputs.extend(decr_output)
# print("编码器输入的数字序列:{}".format(encoder_inputs))
# print("解码器输入的数字序列:{}".format(decoder_inputs))
# print("解码器输出的数字序列:{}".format(decoder_outputs))
# print(torch.tensor(encoder_inputs))
# print(torch.LongTensor(encoder_inputs))
return torch.LongTensor(enc_inputs),torch.LongTensor(dec_inputs),torch.LongTensor(dec_outputs)
enc_inputs,dec_inputs,dec_outputs=to_tensor(train_data)
# ----------------------------------自定义数据集----------------------------------
class Data_set(Dataset):
def __init__(self,enc_inputs,dec_inputs,dec_outputs):
super(Data_set,self).__init__()
self.enc_inputs=enc_inputs
self.dec_inputs=dec_inputs
self.dec_outputs=dec_outputs
def __len__(self):
return self.enc_inputs.shape[0]
def __getitem__(self, item):
return self.enc_inputs[item],self.dec_inputs[item],self.dec_outputs[item]
data_loader=DataLoader(Data_set(enc_inputs,dec_inputs,dec_outputs),2,True)
# -------------------------------------------------transformer-------------------------------------------------------
# 参数设置
d_model = 512 # Embedding Size(token embedding和position编码的维度)
# FeedForward dimension (两次线性层中的隐藏层 512->2048->512,线性层是用来做特征提取的),当然最后会再接一个projection层
d_ff = 2048
d_k = d_v = 64 # dimension of K(=Q), V(Q和K的维度需要相同,这里为了方便让K=V)
n_layers = 6 # number of Encoder of Decoder Layer(Block的个数)
n_heads = 8 # number of heads in Multi-Head Attention(有几个头)
# --------------------------------------------位置编码------------------------------------------
class Position_encoding(nn.Module):
# dropout减少过拟合,增强鲁棒性,max_len为数字序列的最大长度
def __init__(self,d_module,dropout=0.1,max_len=5000):
super(Position_encoding,self).__init__()
self.dropout=nn.Dropout(p=dropout)
# pe是输入序列
pe=torch.zeros(max_len,d_module)
# 位置索引张量
position=torch.arange(0,max_len,dtype=torch.float).unsqueeze(1)
div_term=torch.exp(torch.arange(0,d_model,2).float()*(-math.log(10000.0)/d_model))
# 偶数位置编码
position[:,0::2]=torch.sin(position*div_term)
# 奇数位置编码
position[:,1::2]=torch.cos(position*div_term)
# 将位置编码的维度与输入序列的维度对齐
pe=pe.unsqueeze(0).transpose(0,1)
# buffer通常用于存储那些不需要在训练过程中更新的数据
self.register_buffer('pe',pe)
def forward(self,x):
# x: [seq_len, batch_size, d_model]
# 将位置编码信息添加到输入序列的嵌入中
x=x+self.pe[:x.size(0),:]
return self.dropout(x)
# ------------------------------------多头注意力公式-------------------------------------------
class ScaledDotProductAttention(nn.Module):
def __init__(self):
super(ScaledDotProductAttention,self).__init__()
def forward(self,Q,K,V,attn_mask):
# Q: [batch_size, n_heads, len_q, d_k]
# K: [batch_size, n_heads, len_k, d_k]
# V: [batch_size, n_heads, len_v( = len_k), d_v]
# attn_mask: [batch_size, n_heads, seq_len, seq_len]
# 说明:在encoder - decoder的Attention层中len_q(q1,..qt)和len_k(k1, ... km)可能不同
# 将倒数第一个维度和倒数第二个维度进行转置
scores=torch.matmul(Q,K.transpose(-1,-2))/np.sqrt(d_k)
# scores : [batch_size, n_heads, len_q, len_k]
# mask矩阵填充scores(用-1e9填充scores中与attn_mask中值为1位置相对应的元素)
scores.masked_fill_(attn_mask,-1e9)
attn=nn.Softmax(dim=-1)(scores)
# scores : [batch_size, n_heads, len_q, len_k] * V: [batch_size, n_heads, len_v(=len_k), d_v]
# context: [batch_size, n_heads, len_q, d_v]
context = torch.matmul(attn, V)
return context,attn
# ------------------------------------MultiHeadAttention多头注意力-------------------------------
class MultiHeadAttention(nn.Module):
def __init__(self):
super(MultiHeadAttention,self).__init__()
# 输入:seq_len*d_module
self.W_Q=nn.Linear(d_model,d_k*n_heads,bias=False)
self.W_K=nn.Linear(d_model,d_k*n_heads,bias=False)
self.W_V=nn.Linear(d_model,d_v*n_heads,bias=False)
# 这个全连接层可以保证多头attention的输出仍然是seq_len x d_model
self.fc=nn.Linear(d_v*n_heads,d_model,bias=False)
def forword(self,input_Q,input_K,input_V,attn_mask):
# input_Q: [batch_size, len_q, d_model]
# 残差 批次
residual,batch_size=input_Q,input_K.size(0)
Q=self.W_Q(input_Q).view(batch_size,-1,n_heads,d_k).transpose(1,2)
K=self.W_K(input_K).view(batch_size, -1, n_heads, d_k).transpose(1, 2)
V=self.W_V(input_V).view(batch_size,-1,n_heads,d_v).transpose(1,2)
# 因为是多头,所以mask矩阵要扩充成4维的
# attn_mask: [batch_size, seq_len, seq_len] -> [batch_size, n_heads, seq_len, seq_len]
attn_mask=attn_mask.unsqueeze(1).repeat(1,n_heads,1,1)
context,attn=ScaledDotProductAttention()(Q,K,V,attn_mask)
# 下面将不同头的输出向量拼接在一起
# context: [batch_size, n_heads, len_q, d_v] -> [batch_size, len_q, n_heads * d_v]
context=context.transpose(1,2).reshape(batch_size,-1,n_heads*d_v)
# 这个全连接层可以保证多头attention的输出仍然是seq_len x d_model
output=self.fc(context)
return nn.LayerNorm(d_model).to(device)(output+residual),attn
# ---------------------------------PoswiseFeedForwardNet前馈传播网络--------------------------------------
class PoswiseFeedForwardNet(nn.Module):
def __init__(self):
super(PoswiseFeedForwardNet,self).__init__()
self.fc=nn.Sequential(
nn.Linear(d_model,d_ff,bias=False),
nn.ReLU(),
nn.Linear(d_ff,d_model,bias=False)
)
def forward(self,inputs):
# inputs=[batch_size,seq_len,d_module]
residual=inputs
outputs=self.fc(inputs)
return nn.LayerNorm(d_model).to(device)(outputs+residual)
# --------------------------------------EncoderLayer--------------------------------
class EncoderLayer(nn.Module):
def __init__(self):
super(EncoderLayer,self).__init__()
self.self_attention=MultiHeadAttention()
self.feed_forward=PoswiseFeedForwardNet()
def forward(self,enc_inputs,enc_outputs,enc_mask):
# enc_inputs: [batch_size, source_len, d_model]
# enc_mask: [batch_size, source_len, source_len] mask矩阵
# attn: [batch_size, n_heads, src_len, src_len]
# 第一个enc_inputs * W_Q = Q
# 第二个enc_inputs * W_K = K
# 第三个enc_inputs * W_V = V
# enc_inputs to same Q, K, V(未线性变换前),在 MultiHeadAttention中他们会被线性转换为不同的 Q,K,V
enc_outputs,attn=self.self_attention(enc_inputs,enc_inputs,enc_inputs,enc_mask)
enc_outputs=self.feed_forward(enc_outputs)
return enc_outputs,attn
# ----------------------------------------注意力机制的填充掩码-------------------------------------
def get_attn_pad_mask(seq_q,seq_k):
# seq_q: [batch_size, seq_len]
# seq_k: [batch_size, seq_len]
batch_size,len_q=seq_q.size()
batch_size,len_k=seq_k.size()
# 检查seq_k中的每个元素是否等于0(通常0表示填充)。这会返回一个布尔张量,其中True表示对应位置是填充。
pad_attn_mask=seq_k.data.eq(0).unsquee(1)
return pad_attn_mask.expand(batch_size,len_q,len_k)
# ----------------------------------------注意力机制的掩码-------------------------------------
def get_attn_subsequence_mask(seq):
# seq: [batch_size, target_len]
attn_shape=[seq.size(0),seq.size(1),seq.size(1)]
# attn_shape: [batch_size, target_len,target_len]
subsequence_mask=np.triu(np.ones(attn_shape),k=1)
subsequence_mask=torch.from_numpy(subsequence_mask).byte()
return subsequence_mask
# -------------------------------------------编码层--------------------------------------
class Encoder(nn.Module):
def __init__(self):
super(Encoder,self).__init__()
self.source_embedding=nn.Embedding(source_size,d_model)
# transformer中的位置编码是固定的,不需要学习
self.pos_embedding=Position_encoding(d_model)
# 初始化一个编码器层(EncoderLayer)的堆叠
self.layers=nn.ModuleList([EncoderLayer() for _ in range(n_layers)])
def forward(self,encoder_inputs):
# encoder_inputs: [batch_size, source_len]
# 该层会为每个索引查找对应的嵌入向量。由于每个序列有source_len个词汇或子词,并且每个词汇或子词都被转换为一个d_model维的向量,
# 因此输出的形状就是[batch_size, source_len, d_model]。
enc_outputs=self.source_embedding(encoder_inputs) # [batch_size, source_len, d_model]
#Position_encoding要求的输入形状为[seq_len, batch_size, d_model],所以我们要先转换为要求形状,然后再转换回来。
enc_outputs=self.pos_embedding(enc_outputs.transpose(0,1)).transpose(0,1) # [batch_size, source_len, d_model]
enc_self_attn_pad_mask=get_attn_pad_mask(encoder_inputs,enc_outputs) # [batch_size, source_len, source_len]
enc_self_attns=[] # 在计算中不需要用到,它主要用来保存你接下来返回的attention的值(这个主要是为了你画热力图等,用来看各个词之间的关系
for layer in self.layers:
# 上一个block的输出enc_outputs作为当前block的输入
# enc_outputs: [batch_size, source_len, d_model], enc_self_attn: [batch_size, n_heads, source_len, source_len]
# 传入的enc_outputs其实是input,传入mask矩阵是因为要做self attention
enc_outputs,enc_self_attn=layer(enc_outputs,enc_self_attn_pad_mask)
enc_self_attns.append(enc_self_attn) #可视化用
return enc_outputs,enc_self_attns
# -----------------------------------------DecoderLayer----------------------------------------
class DecoderLayer(nn.Module):
def __init__(self):
super(DecoderLayer,self).__init__()
self.dec_self_attn=MultiHeadAttention()
self.dec_enco_attn=MultiHeadAttention()
self.pos_ffn=PoswiseFeedForwardNet()
# 解码器自注意力掩码dec_self_attn_mask
def forward(self,dec_inputs,enc_outputs,dec_self_attn_mask,dec_enco_attn_mask):
# dec_inputs: [batch_size, target_len, d_model]
# enc_outputs: [batch_size, source_len, d_model]
# dec_self_attn_mask: [batch_size, target_len, target_len]
# dec_enco_attn_mask: [batch_size, target_len, source_len]
# dec_outputs: [batch_size, target_len, d_model], decoder_self_attn: [batch_size, n_heads, target_len, target_len]
# 这里的Q,K,V全是Decoder自己的输入
dec_outputs,dec_self_attn=self.dec_self_attn(dec_inputs,dec_inputs,dec_inputs,dec_enco_attn_mask)
# dec_outputs: [batch_size, target_len, d_model], dec_enc_attn: [batch_size, h_heads, target_len, source_len]
# Attention层的Q(来自decoder) 和 K,V(来自encoder)
dec_outputs,dec_enc_attn=self.dec_enco_attn(dec_outputs,enc_outputs,enc_outputs,dec_enco_attn_mask)
# [batch_size, target_len, d_model]
dec_outputs=self.pos_ffn(dec_outputs)
# dec_self_attn, dec_enc_attn这两个是为了可视化的
return dec_outputs,dec_self_attn,dec_enc_attn
# ---------------------------------------------------解码层-------------------------------------------------
class Decoder(nn.Module):
def __init__(self):
super(Decoder,self).__init__()
self.target_embedding=nn.Embedding(target_size,d_model)
self.pos_embedding=Position_encoding(d_model)
self.layers=nn.ModuleList(DecoderLayer() for _ in range(n_layers))
def forward(self,dec_inputs, enc_inputs, enc_outputs):
# dec_inputs: [batch_size, tgt_len]
# enc_inputs: [batch_size, src_len]
# enc_outputs: [batch_size, src_len, d_model] # 用在Encoder-Decoder Attention层
dec_outputs=self.target_embedding(dec_inputs) # [batch_size,target_len,d_model]
dec_outputs=self.pos_embedding(dec_outputs.transpose(0,1)).transpose(0,1) # [batch_size,target_len,d_model]
# Decoder输入序列的pad mask矩阵
dec_self_attn_pad_mask=get_attn_pad_mask(dec_inputs,dec_inputs).to(device) # [batch_size,target_len,target_len]
# Masked self_Attention 当前时刻是看不到未来的信息的
dec_self_attn_subsequence_mask=get_attn_subsequence_mask(dec_inputs).to(device) # [batch_size,target_len,target_len]
#Decoder中把两种mask矩阵相加(既屏蔽了pad的信息,也屏蔽了未来时刻的信息)
# [batch_size, target_len, target_len]; torch.gt比较两个矩阵的元素,大于则返回 1,否则返回0
dec_self_attn_mask=torch.gt((dec_self_attn_pad_mask+dec_self_attn_subsequence_mask),0).to(device)
# 这个mask主要用于encoder - decoder attention层
# get_attn_pad_mask主要是enc_inputs的pad mask矩阵(因为enc是处理K,V的,求Attention时是用v1,v2,..vm去加权的,
# 要把pad对应的v_i的相关系数设为0,这样注意力就不会关注pad向量) dec_inputs只是提供expand的size的
dec_enc_attn_mask=get_attn_pad_mask(dec_inputs,enc_inputs) # [batch_size,target_len,source_len]
dec_self_attns,dec_enc_attns=[],[]
for layer in self.layers:
# dec_outputs: [batch_size, tgt_len, d_model], dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len], dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]
# Decoder的Block是上一个Block的输出dec_outputs(变化)和Encoder网络的输出enc_outputs(固定)
dec_outputs,dec_self_attn,dec_enc_attn=layer(dec_outputs,enc_outputs,dec_self_attn_mask,dec_enc_attn_mask)
dec_self_attns.append(dec_self_attn)
dec_enc_attns.append(dec_enc_attn)
# dec_outputs: [batch_size, tgt_len, d_model]
return dec_outputs,dec_self_attns,dec_enc_attns
class Transformer(nn.Module):
def __init__(self):
super(Transformer,self).__init__()
self.encoder=Encoder().to(device)
self.decoder=Decoder().to(device)
self.projection=nn.Linear(d_model,target_size,bias=False).to(device)
def forward(self,enc_inputs,dec_inputs):
# Transformers的输入:两个序列
# enc_inputs: [batch_size, source_len]
# dec_inputs: [batch_size, target_len]
# tensor to store decoder outputs
# outputs = torch.zeros(batch_size, target_len, tgt_vocab_size).to(self.device)
# enc_outputs: [batch_size, source_len, d_model], enc_self_attns: [n_layers, batch_size, n_heads, source_len,source_len]
# 经过Encoder网络后,得到的输出还是[batch_size, source_len, d_model]
enc_outputs,enc_self_attns=self.encoder(enc_inputs)
# dec_outputs: [batch_size, tgt_len, d_model], dec_self_attns: [n_layers, batch_size, n_heads, tgt_len, tgt_len], dec_enc_attn: [n_layers, batch_size, tgt_len, src_len]
dec_outputs,dec_self_attns,dec_enc_attns=self.decoder(dec_inputs,enc_inputs,enc_outputs)
# dec_outputs: [batch_size, tgt_len, d_model] -> dec_logits: [batch_size, tgt_len, tgt_vocab_size]
dec_logits=self.projection(dec_outputs)
return dec_logits.view(-1,dec_logits.size(-1)),enc_self_attns,dec_self_attns,dec_enc_attns
应用
例子及代码的出处:Transformer 代码详解(Pytorch版)_transformer pytorch-****博客
import math
import torch
import numpy as np
import torch.nn as nn
import torch.optim as optim
import torch.utils.data as Data
device = 'cuda'
# transformer epochs
epochs = 100
# S: 代表解码器输入序列的开始
# E: 代表解码器输出序列的结束
# P: 这个符号用于填充。在批处理中,如果某个批次中的句子长度不一致,但模型需要固定长度的输入或输出,那么较短的句子会使用这个符号来填充到所需的长度。
# 这有助于模型在训练时保持输入/输出序列的维度一致。
# 训练集
sentences = [
# 中文和英语的单词个数不要求相同
# 中文句子的编码输入 解码器的输入序列 期望的解码器输出序列
['我 有 一 个 好 朋 友 P', 'S I have a good friend .', 'I have a good friend . E'],
['我 有 零 个 女 朋 友 P', 'S I have zero girl friend .', 'I have zero girl friend . E'],
['我 有 一 个 男 朋 友 P', 'S I have a boy friend .', 'I have a boy friend . E']
]
# Padding Should be Zero
src_vocab = {'P': 0, '我': 1, '有': 2, '一': 3,
'个': 4, '好': 5, '朋': 6, '友': 7, '零': 8, '女': 9, '男': 10}
src_idx2word = {i: w for i, w in enumerate(src_vocab)}
src_vocab_size = len(src_vocab)
tgt_vocab = {'P': 0, 'I': 1, 'have': 2, 'a': 3, 'good': 4,
'friend': 5, 'zero': 6, 'girl': 7, 'boy': 8, 'S': 9, 'E': 10, '.': 11}
idx2word = {i: w for i, w in enumerate(tgt_vocab)}
tgt_vocab_size = len(tgt_vocab)
src_len = 8 # (源句子的长度)enc_input max sequence length
tgt_len = 7 # dec_input(=dec_output) max sequence length
# Transformer Parameters
d_model = 512 # Embedding Size(token embedding和position编码的维度)
# FeedForward dimension (两次线性层中的隐藏层 512->2048->512,线性层是用来做特征提取的),当然最后会再接一个projection层
d_ff = 2048
d_k = d_v = 64 # dimension of K(=Q), V(Q和K的维度需要相同,这里为了方便让K=V)
n_layers = 6 # number of Encoder of Decoder Layer(Block的个数)
n_heads = 8 # number of heads in Multi-Head Attention(有几套头)
# ==============================================================================================
# 数据构建
def make_data(sentences):
"""把单词序列转换为数字序列"""
enc_inputs, dec_inputs, dec_outputs = [], [], []
for i in range(len(sentences)):
enc_input = [[src_vocab[n] for n in sentences[i][0].split()]]
dec_input = [[tgt_vocab[n] for n in sentences[i][1].split()]]
dec_output = [[tgt_vocab[n] for n in sentences[i][2].split()]]
# [[1, 2, 3, 4, 5, 6, 7, 0], [1, 2, 8, 4, 9, 6, 7, 0], [1, 2, 3, 4, 10, 6, 7, 0]]
enc_inputs.extend(enc_input)
# [[9, 1, 2, 3, 4, 5, 11], [9, 1, 2, 6, 7, 5, 11], [9, 1, 2, 3, 8, 5, 11]]
dec_inputs.extend(dec_input)
# [[1, 2, 3, 4, 5, 11, 10], [1, 2, 6, 7, 5, 11, 10], [1, 2, 3, 8, 5, 11, 10]]
dec_outputs.extend(dec_output)
return torch.LongTensor(enc_inputs), torch.LongTensor(dec_inputs), torch.LongTensor(dec_outputs)
enc_inputs, dec_inputs, dec_outputs = make_data(sentences)
class MyDataSet(Data.Dataset):
"""自定义DataLoader"""
def __init__(self, enc_inputs, dec_inputs, dec_outputs):
super(MyDataSet, self).__init__()
self.enc_inputs = enc_inputs
self.dec_inputs = dec_inputs
self.dec_outputs = dec_outputs
def __len__(self):
return self.enc_inputs.shape[0]
def __getitem__(self, idx):
return self.enc_inputs[idx], self.dec_inputs[idx], self.dec_outputs[idx]
loader = Data.DataLoader(
MyDataSet(enc_inputs, dec_inputs, dec_outputs), 2, True)
# ====================================================================================================
# Transformer模型
class PositionalEncoding(nn.Module):
def __init__(self, d_model, dropout=0.1, max_len=5000):
super(PositionalEncoding, self).__init__()
self.dropout = nn.Dropout(p=dropout)
pe = torch.zeros(max_len, d_model)
position = torch.arange(0, max_len, dtype=torch.float).unsqueeze(1)
div_term = torch.exp(torch.arange(
0, d_model, 2).float() * (-math.log(10000.0) / d_model))
pe[:, 0::2] = torch.sin(position * div_term)
pe[:, 1::2] = torch.cos(position * div_term)
pe = pe.unsqueeze(0).transpose(0, 1)
self.register_buffer('pe', pe)
def forward(self, x):
"""
x: [seq_len, batch_size, d_model]
"""
x = x + self.pe[:x.size(0), :]
return self.dropout(x)
# ----------------------------------------注意力机制的填充(padding)掩码(mask)-------------------------------------
def get_attn_pad_mask(seq_q, seq_k):
# pad mask的作用:在对value向量加权平均的时候,可以让pad对应的alpha_ij=0,这样注意力就不会考虑到pad向量
"""这里的q,k表示的是两个序列(跟注意力机制的q,k没有关系),例如encoder_inputs (x1,x2,..xm)和encoder_inputs (x1,x2..xm)
encoder和decoder都可能调用这个函数,所以seq_len视情况而定
seq_q: [batch_size, seq_len]
seq_k: [batch_size, seq_len]
seq_len could be src_len or it could be tgt_len
seq_len in seq_q and seq_len in seq_k maybe not equal
"""
batch_size, len_q = seq_q.size() # 这个seq_q只是用来expand维度的
batch_size, len_k = seq_k.size()
# eq(zero) is PAD token
# 例如:seq_k = [[1,2,3,4,0], [1,2,3,5,0]]
# [batch_size, 1, len_k], True is masked
pad_attn_mask = seq_k.data.eq(0).unsqueeze(1)
# [batch_size, len_q, len_k] 构成一个立方体(batch_size个这样的矩阵)
return pad_attn_mask.expand(batch_size, len_q, len_k)
def get_attn_subsequence_mask(seq):
"""建议打印出来看看是什么的输出(一目了然)
seq: [batch_size, tgt_len]
"""
attn_shape = [seq.size(0), seq.size(1), seq.size(1)]
# attn_shape: [batch_size, tgt_len, tgt_len]
subsequence_mask = np.triu(np.ones(attn_shape), k=1) # 生成一个上三角矩阵
subsequence_mask = torch.from_numpy(subsequence_mask).byte()
return subsequence_mask # [batch_size, tgt_len, tgt_len]
# ==========================================================================================
class ScaledDotProductAttention(nn.Module):
def __init__(self):
super(ScaledDotProductAttention, self).__init__()
def forward(self, Q, K, V, attn_mask):
"""
Q: [batch_size, n_heads, len_q, d_k]
K: [batch_size, n_heads, len_k, d_k]
V: [batch_size, n_heads, len_v(=len_k), d_v]
attn_mask: [batch_size, n_heads, seq_len, seq_len]
说明:在encoder-decoder的Attention层中len_q(q1,..qt)和len_k(k1,...km)可能不同
"""
scores = torch.matmul(Q, K.transpose(-1, -2)) / \
np.sqrt(d_k) # scores : [batch_size, n_heads, len_q, len_k]
# mask矩阵填充scores(用-1e9填充scores中与attn_mask中值为1位置相对应的元素)
# Fills elements of self tensor with value where mask is True.
scores.masked_fill_(attn_mask, -1e9)
attn = nn.Softmax(dim=-1)(scores) # 对最后一个维度(v)做softmax
# scores : [batch_size, n_heads, len_q, len_k] * V: [batch_size, n_heads, len_v(=len_k), d_v]
# context: [batch_size, n_heads, len_q, d_v]
context = torch.matmul(attn, V)
# context:[[z1,z2,...],[...]]向量, attn注意力稀疏矩阵(用于可视化的)
return context, attn
class MultiHeadAttention(nn.Module):
"""这个Attention类可以实现:
Encoder的Self-Attention
Decoder的Masked Self-Attention
Encoder-Decoder的Attention
输入:seq_len x d_model
输出:seq_len x d_model
"""
def __init__(self):
super(MultiHeadAttention, self).__init__()
self.W_Q = nn.Linear(d_model, d_k * n_heads,
bias=False) # q,k必须维度相同,不然无法做点积
self.W_K = nn.Linear(d_model, d_k * n_heads, bias=False)
self.W_V = nn.Linear(d_model, d_v * n_heads, bias=False)
# 这个全连接层可以保证多头attention的输出仍然是seq_len x d_model
self.fc = nn.Linear(n_heads * d_v, d_model, bias=False)
def forward(self, input_Q, input_K, input_V, attn_mask):
"""
input_Q: [batch_size, len_q, d_model]
input_K: [batch_size, len_k, d_model]
input_V: [batch_size, len_v(=len_k), d_model]
attn_mask: [batch_size, seq_len, seq_len]
"""
residual, batch_size = input_Q, input_Q.size(0)
# 下面的多头的参数矩阵是放在一起做线性变换的,然后再拆成多个头,这是工程实现的技巧
# B: batch_size, S:seq_len, D: dim
# (B, S, D) -proj-> (B, S, D_new) -split-> (B, S, Head, W) -trans-> (B, Head, S, W)
# 线性变换 拆成多头
# Q: [batch_size, n_heads, len_q, d_k]
Q = self.W_Q(input_Q).view(batch_size, -1,
n_heads, d_k).transpose(1, 2)
# K: [batch_size, n_heads, len_k, d_k] # K和V的长度一定相同,维度可以不同
K = self.W_K(input_K).view(batch_size, -1,
n_heads, d_k).transpose(1, 2)
# V: [batch_size, n_heads, len_v(=len_k), d_v]
V = self.W_V(input_V).view(batch_size, -1,
n_heads, d_v).transpose(1, 2)
# 因为是多头,所以mask矩阵要扩充成4维的
# attn_mask: [batch_size, seq_len, seq_len] -> [batch_size, n_heads, seq_len, seq_len]
attn_mask = attn_mask.unsqueeze(1).repeat(1, n_heads, 1, 1)
# context: [batch_size, n_heads, len_q, d_v], attn: [batch_size, n_heads, len_q, len_k]
context, attn = ScaledDotProductAttention()(Q, K, V, attn_mask)
# 下面将不同头的输出向量拼接在一起
# context: [batch_size, n_heads, len_q, d_v] -> [batch_size, len_q, n_heads * d_v]
context = context.transpose(1, 2).reshape(
batch_size, -1, n_heads * d_v)
# 这个全连接层可以保证多头attention的输出仍然是seq_len x d_model
output = self.fc(context) # [batch_size, len_q, d_model]
return nn.LayerNorm(d_model).to(device)(output + residual), attn
# Pytorch中的Linear只会对最后一维操作,所以正好是我们希望的每个位置用同一个全连接网络
class PoswiseFeedForwardNet(nn.Module):
def __init__(self):
super(PoswiseFeedForwardNet, self).__init__()
self.fc = nn.Sequential(
nn.Linear(d_model, d_ff, bias=False),
nn.ReLU(),
nn.Linear(d_ff, d_model, bias=False)
)
def forward(self, inputs):
"""
inputs: [batch_size, seq_len, d_model]
"""
residual = inputs
output = self.fc(inputs)
# [batch_size, seq_len, d_model]
return nn.LayerNorm(d_model).to(device)(output + residual)
class EncoderLayer(nn.Module):
def __init__(self):
super(EncoderLayer, self).__init__()
self.enc_self_attn = MultiHeadAttention()
self.pos_ffn = PoswiseFeedForwardNet()
def forward(self, enc_inputs, enc_self_attn_mask):
"""E
enc_inputs: [batch_size, src_len, d_model]
enc_self_attn_mask: [batch_size, src_len, src_len] mask矩阵(pad mask or sequence mask)
"""
# enc_outputs: [batch_size, src_len, d_model], attn: [batch_size, n_heads, src_len, src_len]
# 第一个enc_inputs * W_Q = Q
# 第二个enc_inputs * W_K = K
# 第三个enc_inputs * W_V = V
enc_outputs, attn = self.enc_self_attn(enc_inputs, enc_inputs, enc_inputs,
enc_self_attn_mask) # enc_inputs to same Q,K,V(未线性变换前)
enc_outputs = self.pos_ffn(enc_outputs)
# enc_outputs: [batch_size, src_len, d_model]
return enc_outputs, attn
class DecoderLayer(nn.Module):
def __init__(self):
super(DecoderLayer, self).__init__()
self.dec_self_attn = MultiHeadAttention()
self.dec_enc_attn = MultiHeadAttention()
self.pos_ffn = PoswiseFeedForwardNet()
def forward(self, dec_inputs, enc_outputs, dec_self_attn_mask, dec_enc_attn_mask):
"""
dec_inputs: [batch_size, tgt_len, d_model]
enc_outputs: [batch_size, src_len, d_model]
dec_self_attn_mask: [batch_size, tgt_len, tgt_len]
dec_enc_attn_mask: [batch_size, tgt_len, src_len]
"""
# dec_outputs: [batch_size, tgt_len, d_model], dec_self_attn: [batch_size, n_heads, tgt_len, tgt_len]
dec_outputs, dec_self_attn = self.dec_self_attn(dec_inputs, dec_inputs, dec_inputs,
dec_self_attn_mask) # 这里的Q,K,V全是Decoder自己的输入
# dec_outputs: [batch_size, tgt_len, d_model], dec_enc_attn: [batch_size, h_heads, tgt_len, src_len]
dec_outputs, dec_enc_attn = self.dec_enc_attn(dec_outputs, enc_outputs, enc_outputs,
dec_enc_attn_mask) # Attention层的Q(来自decoder) 和 K,V(来自encoder)
# [batch_size, tgt_len, d_model]
dec_outputs = self.pos_ffn(dec_outputs)
# dec_self_attn, dec_enc_attn这两个是为了可视化的
return dec_outputs, dec_self_attn, dec_enc_attn
class Encoder(nn.Module):
def __init__(self):
super(Encoder, self).__init__()
self.src_emb = nn.Embedding(src_vocab_size, d_model) # token Embedding
self.pos_emb = PositionalEncoding(
d_model) # Transformer中位置编码时固定的,不需要学习
self.layers = nn.ModuleList([EncoderLayer() for _ in range(n_layers)])
def forward(self, enc_inputs):
"""
enc_inputs: [batch_size, src_len]
"""
enc_outputs = self.src_emb(
enc_inputs) # [batch_size, src_len
推荐阅读
-
变压器型号代码和应用
-
Java 8新特性探究(十三)JavaFX 8新特性以及开发2048游戏-JavaFX历史## 跟java在服务器端和web端成绩相比,桌面一直是java的软肋,于是Sun公司在2008年推出JavaFX,弥补桌面软件的缺陷,请看下图JavaFX一路走过来的改进 从上图看出,一开始推出时候,开发者需使用一种名为JavaFX Script的静态的、声明式的编程语言来开发JavaFX应用程序。因为JavaFX Script将会被编译为Java bytecode,程序员可以使用Java代码代替。 JavaFX 2.0之后的版本摒弃了JavaFX Script语言,而作为一个Java API来使用。因此使用JavaFX平台实现的应用程序将直接通过标准Java代码来实现。 JavaFX 2.0 包含非常丰富的 UI 控件、图形和多媒体特性用于简化可视化应用的开发,WebView可直接在应用中嵌入网页;另外 2.0 版本允许使用 FXML 进行 UI 定义,这是一个脚本化基于 XML 的标识语言。 从JDK 7u6开始,JavaFx就与JDK捆绑在一起了,JavaFX团队称,下一个版本将是8.0,目前所有的工作都已经围绕8.0库进行。这是因为JavaFX将捆绑在Java 8中,因此该团队决定跳过几个版本号,迎头赶上Java 8。 ##JavaFx8的新特性 ## ###全新现代主题:Modena 新的Modena主题来替换原来的Caspian主题。不过在Application的start方法中,可以通过setUserAgentStylesheet(STYLESHEET_CASPIAN)来继续使用Caspian主题。 参考http://fxexperience.com/2013/03/modena-theme-update/ ###JavaFX 3D 在JavaFX8中提供了3D图像处理API,包括Shape3D (Box, Cylinder, MeshView, Sphere子类),SubScene, Material, PickResult, LightBase (AmbientLight 和PointLight子类),SceneAntialiasing等。Camera类也得到了更新。从JavaDoc中可以找到更多信息。 ###富文本 强化了富文本的支持 ###TreeTableView ###日期控件DatePicker 增加日期控件 ###用于 CSS 结构的公共 API
-
酷炫的3D地图应用:使用three.js和web3d技术实现三维地图及下钻功能,附带源代码分享
-
Vue中如何应用gojs和jointjs:实例代码展示
-
【摩尔线程+Colossal-AI强强联手】MusaBert登上CLUE榜单TOP10:技术细节揭秘 - 技术实力:摩尔线程凭借"软硬兼备"的技术底蕴,让MusaBert得以从底层优化到顶层。其内置多功能GPU配备AI加速和并行计算模块,提供了全面的AI与科学计算支持,为AI推理和低资源条件下的大模型训练等场景带来了高效、经济且环保的算力。 - 算法层面亮点:依托Colossal-AI AI大模型开发系统,MusaBert在训练过程中展现出了卓越的并行性能与易用性,特别在预处理阶段对DataLoader进行了优化,适应低资源环境高效处理海量数据。同时,通过精细的建模优化、领域内数据增强以及Adan优化器等手段,挖掘和展示了预训练语言模型出色的语义理解潜力。基于MusaBert,摩尔线程自主研发的MusaSim通过对比学习方法微调,结合百万对标注数据,MusaSim在多个任务如语义相似度、意图识别和情绪分析中均表现出色。 - 数据资源丰富:MusaBert除了自家高质量语义相似数据外,还融合了悟道开源200GB数据、CLUE社区80GB数据,以及浪潮公司提供的1TB高质量数据,保证模型即便在较小规模下仍具备良好性能。 当前,MusaBert已成功应用于摩尔线程的智能客服与数字人项目,并广泛服务于语义相似度、情绪识别、阅读理解与声韵识别等领域。为了降低大模型开发和应用难度,MusaBert及其相关高质量模型代码已在Colossal-AI仓库开源,可快速训练优质中文BERT模型。同时,通过摩尔线程与潞晨科技的深度合作,仅需一张多功能GPU单卡便能高效训练MusaBert或更大规模的GPT2模型,显著降低预训练成本,进一步推动双方在低资源大模型训练领域的共享目标。 MusaBert荣登CLUE榜单TOP10,象征着摩尔线程与潞晨科技联合研发团队在中文预训练研究领域的领先地位。展望未来,双方将携手探索更大规模的自然语言模型研究,充分运用上游数据资源,产出更为强大的模型并开源。持续强化在摩尔线程多功能GPU上的大模型训练能力,特别是在消费级显卡等低资源环境下,致力于降低使用大模型训练的门槛与成本,推动人工智能更加普惠。而潞晨科技作为重要合作伙伴,将继续发挥关键作用。
-
无需编写代码,轻松借助在线可视化拖放工具自动生成应用、小程序和H5页面的指南
-
SSM三大框架基础面试题-一、Spring篇 什么是Spring框架? Spring是一种轻量级框架,提高开发人员的开发效率以及系统的可维护性。 我们一般说的Spring框架就是Spring Framework,它是很多模块的集合,使用这些模块可以很方便地协助我们进行开发。这些模块是核心容器、数据访问/集成、Web、AOP(面向切面编程)、工具、消息和测试模块。比如Core Container中的Core组件是Spring所有组件的核心,Beans组件和Context组件是实现IOC和DI的基础,AOP组件用来实现面向切面编程。 Spring的6个特征: 核心技术:依赖注入(DI),AOP,事件(Events),资源,i18n,验证,数据绑定,类型转换,SpEL。 测试:模拟对象,TestContext框架,Spring MVC测试,WebTestClient。 数据访问:事务,DAO支持,JDBC,ORM,编组XML。 Web支持:Spring MVC和Spring WebFlux Web框架。 集成:远程处理,JMS,JCA,JMX,电子邮件,任务,调度,缓存。 语言:Kotlin,Groovy,动态语言。 列举一些重要的Spring模块? Spring Core:核心,可以说Spring其他所有的功能都依赖于该类库。主要提供IOC和DI功能。 Spring Aspects:该模块为与AspectJ的集成提供支持。 Spring AOP:提供面向切面的编程实现。 Spring JDBC:Java数据库连接。 Spring JMS:Java消息服务。 Spring ORM:用于支持Hibernate等ORM工具。 Spring Web:为创建Web应用程序提供支持。 Spring Test:提供了对JUnit和TestNG测试的支持。 谈谈自己对于Spring IOC和AOP的理解 IOC(Inversion Of Controll,控制反转)是一种设计思想: 在程序中手动创建对象的控制权,交由给Spring框架来管理。IOC在其他语言中也有应用,并非Spring特有。IOC容器实际上就是一个Map(key, value),Map中存放的是各种对象。 将对象之间的相互依赖关系交给IOC容器来管理,并由IOC容器完成对象的注入。这样可以很大程度上简化应用的开发,把应用从复杂的依赖关系中解放出来。IOC容器就像是一个工厂一样,当我们需要创建一个对象的时候,只需要配置好配置文件/注解即可,完全不用考虑对象是如何被创建出来的。在实际项目中一个Service类可能由几百甚至上千个类作为它的底层,假如我们需要实例化这个Service,可能要每次都搞清楚这个Service所有底层类的构造函数,这可能会把人逼疯。如果利用IOC的话,你只需要配置好,然后在需要的地方引用就行了,大大增加了项目的可维护性且降低了开发难度。 Spring中的bean的作用域有哪些? 1.singleton:该bean实例为单例 2.prototype:每次请求都会创建一个新的bean实例(多例)。 3.request:每一次HTTP请求都会产生一个新的bean,该bean仅在当前HTTP request内有效。 4.session:每一次HTTP请求都会产生一个新的bean,该bean仅在当前HTTP session内有效。 5.global-session:全局session作用域,仅仅在基于Portlet的Web应用中才有意义,Spring5中已经没有了。Portlet是能够生成语义代码(例如HTML)片段的小型Java Web插件。它们基于Portlet容器,可以像Servlet一样处理HTTP请求。但是与Servlet不同,每个Portlet都有不同的会话。 Spring中的单例bean的线程安全问题了解吗? 概念用于理解:大部分时候我们并没有在系统中使用多线程,所以很少有人会关注这个问题。单例bean存在线程问题,主要是因为当多个线程操作同一个对象的时候,对这个对象的非静态成员变量的写操作会存在线程安全问题。 有两种常见的解决方案(用于回答的点): 1.在bean对象中尽量避免定义可变的成员变量(不太现实)。 2.在类中定义一个ThreadLocal成员变量,将需要的可变成员变量保存在ThreadLocal(线程本地化对象)中(推荐的一种方式)。 ThreadLocal解决多线程变量共享问题(参考博客):https://segmentfault.com/a/1190000009236777 Spring中Bean的生命周期: 1.Bean容器找到配置文件中Spring Bean的定义。 2.Bean容器利用Java Reflection API创建一个Bean的实例。 3.如果涉及到一些属性值,利用set方法设置一些属性值。 4.如果Bean实现了BeanNameAware接口,调用setBeanName方法,传入Bean的名字。 5.如果Bean实现了BeanClassLoaderAware接口,调用setBeanClassLoader方法,传入ClassLoader对象的实例。 6.如果Bean实现了BeanFactoryAware接口,调用setBeanClassFacotory方法,传入ClassLoader对象的实例。 7.与上面的类似,如果实现了其他*Aware接口,就调用相应的方法。 8.如果有和加载这个Bean的Spring容器相关的BeanPostProcessor对象,执postProcessBeforeInitialization方法。 9.如果Bean实现了InitializingBean接口,执行afeterPropertiesSet方法。 10.如果Bean在配置文件中的定义包含init-method属性,执行指定的方法。 11.如果有和加载这个Bean的Spring容器相关的BeanPostProcess对象,执行postProcessAfterInitialization方法。 12.当要销毁Bean的时候,如果Bean实现了DisposableBean接口,执行destroy方法。 13.当要销毁Bean的时候,如果Bean在配置文件中的定义包含destroy-method属性,执行指定的方法。 Spring框架中用到了哪些设计模式? 1.工厂设计模式:Spring使用工厂模式通过BeanFactory和ApplicationContext创建bean对象。 2.代理设计模式:Spring AOP功能的实现。 3.单例设计模式:Spring中的bean默认都是单例的。 4.模板方法模式:Spring中的jdbcTemplate、hibernateTemplate等以Template结尾的对数据库操作的类,它们就使用到了模板模式。 5.包装器设计模式:我们的项目需要连接多个数据库,而且不同的客户在每次访问中根据需要会去访问不同的数据库。这种模式让我们可以根据客户的需求能够动态切换不同的数据源。 6.观察者模式:Spring事件驱动模型就是观察者模式很经典的一个应用。 7.适配器模式:Spring AOP的增强或通知(Advice)使用到了适配器模式、Spring MVC中也是用到了适配器模式适配Controller。 还有很多。。。。。。。 @Component和@Bean的区别是什么 1.作用对象不同。@Component注解作用于类,而@Bean注解作用于方法。 2.@Component注解通常是通过类路径扫描来自动侦测以及自动装配到Spring容器中(我们可以使用@ComponentScan注解定义要扫描的路径)。@Bean注解通常是在标有该注解的方法中定义产生这个bean,告诉Spring这是某个类的实例,当我需要用它的时候还给我。 3.@Bean注解比@Component注解的自定义性更强,而且很多地方只能通过@Bean注解来注册bean。比如当引用第三方库的类需要装配到Spring容器的时候,就只能通过@Bean注解来实现。 @Configuration public class AppConfig { @Bean public TransferService transferService { return new TransferServiceImpl; } } <beans> <bean id="transferService" class="com.kk.TransferServiceImpl"/> </beans> @Bean public OneService getService(status) { case (status) { when 1: return new serviceImpl1; when 2: return new serviceImpl2; when 3: return new serviceImpl3; } } 将一个类声明为Spring的bean的注解有哪些? 声明bean的注解: @Component 组件,没有明确的角色 @Service 在业务逻辑层使用(service层) @Repository 在数据访问层使用(dao层) @Controller 在展现层使用,控制器的声明 注入bean的注解: @Autowired:由Spring提供 @Inject:由JSR-330提供 @Resource:由JSR-250提供 *扩:JSR 是 java 规范标准 Spring事务管理的方式有几种? 1.编程式事务:在代码中硬编码(不推荐使用)。 2.声明式事务:在配置文件中配置(推荐使用),分为基于XML的声明式事务和基于注解的声明式事务。 Spring事务中的隔离级别有哪几种? 在TransactionDefinition接口中定义了五个表示隔离级别的常量:ISOLATION_DEFAULT:使用后端数据库默认的隔离级别,Mysql默认采用的REPEATABLE_READ隔离级别;Oracle默认采用的READ_COMMITTED隔离级别。ISOLATION_READ_UNCOMMITTED:最低的隔离级别,允许读取尚未提交的数据变更,可能会导致脏读、幻读或不可重复读。ISOLATION_READ_COMMITTED:允许读取并发事务已经提交的数据,可以阻止脏读,但是幻读或不可重复读仍有可能发生ISOLATION_REPEATABLE_READ:对同一字段的多次读取结果都是一致的,除非数据是被本身事务自己所修改,可以阻止脏读和不可重复读,但幻读仍有可能发生。ISOLATION_SERIALIZABLE:最高的隔离级别,完全服从ACID的隔离级别。所有的事务依次逐个执行,这样事务之间就完全不可能产生干扰,也就是说,该级别可以防止脏读、不可重复读以及幻读。但是这将严重影响程序的性能。通常情况下也不会用到该级别。 Spring事务中有哪几种事务传播行为? 在TransactionDefinition接口中定义了八个表示事务传播行为的常量。 支持当前事务的情况:PROPAGATION_REQUIRED:如果当前存在事务,则加入该事务;如果当前没有事务,则创建一个新的事务。PROPAGATION_SUPPORTS: 如果当前存在事务,则加入该事务;如果当前没有事务,则以非事务的方式继续运行。PROPAGATION_MANDATORY: 如果当前存在事务,则加入该事务;如果当前没有事务,则抛出异常。(mandatory:强制性)。 不支持当前事务的情况:PROPAGATION_REQUIRES_NEW: 创建一个新的事务,如果当前存在事务,则把当前事务挂起。PROPAGATION_NOT_SUPPORTED: 以非事务方式运行,如果当前存在事务,则把当前事务挂起。PROPAGATION_NEVER: 以非事务方式运行,如果当前存在事务,则抛出异常。 其他情况:PROPAGATION_NESTED: 如果当前存在事务,则创建一个事务作为当前事务的嵌套事务来运行;如果当前没有事务,则该取值等价于PROPAGATION_REQUIRED。 二、SpringMVC篇 什么是Spring MVC ?简单介绍下你对springMVC的理解? Spring MVC是一个基于Java的实现了MVC设计模式的请求驱动类型的轻量级Web框架,通过把Model,View,Controller分离,将web层进行职责解耦,把复杂的web应用分成逻辑清晰的几部分,简化开发,减少出错,方便组内开发人员之间的配合。 Spring MVC的工作原理了解嘛? image.png Springmvc的优点: (1)可以支持各种视图技术,而不仅仅局限于JSP; (2)与Spring框架集成(如IoC容器、AOP等); (3)清晰的角色分配:前端控制器(dispatcherServlet) , 请求到处理器映射(handlerMapping), 处理器适配器(HandlerAdapter), 视图解析器(ViewResolver)。 (4) 支持各种请求资源的映射策略。 Spring MVC的主要组件? (1)前端控制器 DispatcherServlet(不需要程序员开发) 作用:接收请求、响应结果,相当于转发器,有了DispatcherServlet 就减少了其它组件之间的耦合度。 (2)处理器映射器HandlerMapping(不需要程序员开发) 作用:根据请求的URL来查找Handler (3)处理器适配器HandlerAdapter 注意:在编写Handler的时候要按照HandlerAdapter要求的规则去编写,这样适配器HandlerAdapter才可以正确的去执行Handler。 (4)处理器Handler(需要程序员开发) (5)视图解析器 ViewResolver(不需要程序员开发) 作用:进行视图的解析,根据视图逻辑名解析成真正的视图(view) (6)视图View(需要程序员开发jsp) View是一个接口, 它的实现类支持不同的视图类型(jsp,freemarker,pdf等等) springMVC和struts2的区别有哪些? (1)springmvc的入口是一个servlet即前端控制器(DispatchServlet),而struts2入口是一个filter过虑器(StrutsPrepareAndExecuteFilter)。 (2)springmvc是基于方法开发(一个url对应一个方法),请求参数传递到方法的形参,可以设计为单例或多例(建议单例),struts2是基于类开发,传递参数是通过类的属性,只能设计为多例。 (3)Struts采用值栈存储请求和响应的数据,通过OGNL存取数据,springmvc通过参数解析器是将request请求内容解析,并给方法形参赋值,将数据和视图封装成ModelAndView对象,最后又将ModelAndView中的模型数据通过reques域传输到页面。Jsp视图解析器默认使用jstl。 SpringMVC怎么样设定重定向和转发的? (1)转发:在返回值前面加"forward:",譬如"forward:user.do?name=method4" (2)重定向:在返回值前面加"redirect:",譬如"redirect:http://www.baidu.com" SpringMvc怎么和AJAX相互调用的? 通过Jackson框架就可以把Java里面的对象直接转化成Js可以识别的Json对象。具体步骤如下 : (1)加入Jackson.jar (2)在配置文件中配置json的映射 (3)在接受Ajax方法里面可以直接返回Object,List等,但方法前面要加上@ResponseBody注解。 如何解决POST请求中文乱码问题,GET的又如何处理呢? (1)解决post请求乱码问题: 在web.xml中配置一个CharacterEncodingFilter过滤器,设置成utf-8; <filter> <filter-name>CharacterEncodingFilter</filter-name> <filter-class>org.springframework.web.filter.CharacterEncodingFilter</filter-class> <init-param> <param-name>encoding</param-name> <param-value>utf-8</param-value> </init-param> </filter> <filter-mapping> <filter-name>CharacterEncodingFilter</filter-name> <url-pattern>/*</url-pattern> </filter-mapping> (2)get请求中文参数出现乱码解决方法有两个: ①修改tomcat配置文件添加编码与工程编码一致,如下: <ConnectorURIEncoding="utf-8" connectionTimeout="20000" port="8080" protocol="HTTP/1.1" redirectPort="8443"/> ②另外一种方法对参数进行重新编码: String userName = new String(request.getParamter("userName").getBytes("ISO8859-1"),"utf-8") ISO8859-1是tomcat默认编码,需要将tomcat编码后的内容按utf-8编码。 Spring MVC的异常处理 ? 统一异常处理: Spring MVC处理异常有3种方式: (1)使用Spring MVC提供的简单异常处理器SimpleMappingExceptionResolver; (2)实现Spring的异常处理接口HandlerExceptionResolver 自定义自己的异常处理器; (3)使用@ExceptionHandler注解实现异常处理; 统一异常处理的博客:https://blog.csdn.net/ctwy291314/article/details/81983103 SpringMVC的控制器是不是单例模式,如果是,有什么问题,怎么解决? 是单例模式,所以在多线程访问的时候有线程安全问题,不要用同步,会影响性能的,解决方案是在控制器里面不能写成员变量。(此题目类似于上面Spring 中 第5题 有两种解决方案) SpringMVC常用的注解有哪些? @RequestMapping:用于处理请求 url 映射的注解,可用于类或方法上。用于类上,则表示类中的所有响应请求的方法都是以该地址作为父路径。 @RequestBody:注解实现接收http请求的json数据,将json转换为java对象。 @ResponseBody:注解实现将conreoller方法返回对象转化为json对象响应给客户。 SpingMvc中的控制器的注解一般用那个,有没有别的注解可以替代? 一般用@Controller注解,也可以使用@RestController,@RestController注解相当于@ResponseBody + @Controller,表示是表现层,除此之外,一般不用别的注解代替。 如果在拦截请求中,我想拦截get方式提交的方法,怎么配置? 可以在@RequestMapping注解里面加上method=RequestMethod.GET。 怎样在方法里面得到Request,或者Session? 直接在方法的形参中声明request,SpringMVC就自动把request对象传入。 如果想在拦截的方法里面得到从前台传入的参数,怎么得到? 直接在形参里面声明这个参数就可以,但必须名字和传过来的参数一样。 如果前台有很多个参数传入,并且这些参数都是一个对象的,那么怎么样快速得到这个对象? 直接在方法中声明这个对象,SpringMVC就自动会把属性赋值到这个对象里面。 SpringMVC中函数的返回值是什么? 返回值可以有很多类型,有String, ModelAndView。ModelAndView类把视图和数据都合并的一起的。 SpringMVC用什么对象从后台向前台传递数据的? 通过ModelMap对象,可以在这个对象里面调用put方法,把对象加到里面,前台就可以拿到数据。 怎么样把ModelMap里面的数据放入Session里面? 可以在类上面加上@SessionAttributes注解,里面包含的字符串就是要放入session里面的key。 SpringMvc里面拦截器是怎么写的: 有两种写法,一种是实现HandlerInterceptor接口,另外一种是继承适配器类,接着在接口方法当中,实现处理逻辑;然后在SpringMvc的配置文件中配置拦截器即可: <!-- 配置SpringMvc的拦截器 --> <mvc:interceptors> <!-- 配置一个拦截器的Bean就可以了 默认是对所有请求都拦截 --> <bean id="myInterceptor" class="com.zwp.action.MyHandlerInterceptor"></bean> <!-- 只针对部分请求拦截 --> <mvc:interceptor> <mvc:mapping path="/modelMap.do" /> <bean class="com.zwp.action.MyHandlerInterceptorAdapter" /> </mvc:interceptor> </mvc:interceptors> 注解原理: 注解本质是一个继承了Annotation的特殊接口,其具体实现类是Java运行时生成的动态代理类。我们通过反射获取注解时,返回的是Java运行时生成的动态代理对象。通过代理对象调用自定义注解的方法,会最终调用AnnotationInvocationHandler的invoke方法。该方法会从memberValues这个Map中索引出对应的值。而memberValues的来源是Java常量池 三、Mybatis篇 什么是MyBatis? MyBatis是一个可以自定义SQL、存储过程和高级映射的持久层框架。 讲下MyBatis的缓存 MyBatis的缓存分为一级缓存和二级缓存,一级缓存放在session里面,默认就有, 二级缓存放在它的命名空间里,默认是不打开的,使用二级缓存属性类需要实现Serializable序列化接口, 可在它的映射文件中配置<cache/> Mybatis是如何进行分页的?分页插件的原理是什么? 1)Mybatis使用RowBounds对象进行分页,也可以直接编写sql实现分页,也可以使用Mybatis的分页插件。 2)分页插件的原理:实现Mybatis提供的接口,实现自定义插件,在插件的拦截方法内拦截待执行的sql,然后重写sql。 举例:select * from student,拦截sql后重写为:select t.* from (select * from student)t limit 0,10 简述Mybatis的插件运行原理,以及如何编写一个插件? 1)Mybatis仅可以编写针对ParameterHandler、ResultSetHandler、StatementHandler、 Executor这4种接口的插件,Mybatis通过动态代理, 为需要拦截的接口生成代理对象以实现接口方法拦截功能, 每当执行这4种接口对象的方法时,就会进入拦截方法, 具体就是InvocationHandler的invoke方法,当然, 只会拦截那些你指定需要拦截的方法。 2)实现Mybatis的Interceptor接口并复写intercept方法, 然后在给插件编写注解,指定要拦截哪一个接口的哪些方法即可, 记住,别忘了在配置文件中配置你编写的插件。 Mybatis动态sql是做什么的?都有哪些动态sql?能简述一下动态sql的执行原理不? 1)Mybatis动态sql可以让我们在Xml映射文件内, 以标签的形式编写动态sql,完成逻辑判断和动态拼接sql的功能。 2)Mybatis提供了9种动态sql标签:trim|where|set|foreach|if|choose|when|otherwise|bind。 3)其执行原理为,使用OGNL从sql参数对象中计算表达式的值, 根据表达式的值动态拼接sql,以此来完成动态sql的功能。 #{}和${}的区别是什么? 1)#{}是预编译处理,${}是字符串替换。 2)Mybatis在处理#{}时,会将sql中的#{}替换为?号,调用PreparedStatement的set方法来赋值(有效的防止SQL注入); 3)Mybatis在处理${}时,就是把${}替换成变量的值。 为什么说Mybatis是半自动ORM映射工具?它与全自动的区别在哪里? Hibernate属于全自动ORM映射工具, 使用Hibernate查询关联对象或者关联集合对象时, 可以根据对象关系模型直接获取,所以它是全自动的。 而Mybatis在查询关联对象或关联集合对象时, 需要手动编写sql来完成,所以,称之为半自动ORM映射工具。 Mybatis是否支持延迟加载?如果支持,它的实现原理是什么? 1)Mybatis仅支持association关联对象和collection关联集合对象的延迟加载, association指的就是一对一,collection指的就是一对多查询。 在Mybatis配置文件中, 可以配置是否启用延迟加载lazyLoadingEnabled=true|false。 2)它的原理是,使用CGLIB创建目标对象的代理对象, 当调用目标方法时,进入拦截器方法, 比如调用a.getB.getName, 拦截器invoke方法发现a.getB是null值, 那么就会单独发送事先保存好的查询关联B对象的sql, 把B查询上来,然后调用a.setB(b), 于是a的对象b属性就有值了, 接着完成a.getB.getName方法的调用。 这就是延迟加载的基本原理。 MyBatis与Hibernate有哪些不同? 1)Mybatis和hibernate不同,它不完全是一个ORM框架, 因为MyBatis需要程序员自己编写Sql语句, 不过mybatis可以通过XML或注解方式灵活配置要运行的sql语句, 并将java对象和sql语句映射生成最终执行的sql, 最后将sql执行的结果再映射生成java对象。 2)Mybatis学习门槛低,简单易学,程序员直接编写原生态sql, 可严格控制sql执行性能,灵活度高,非常适合对关系数据模型要求不高的软件开发, 例如互联网软件、企业运营类软件等,因为这类软件需求变化频繁, 一但需求变化要求成果输出迅速。但是灵活的前提是mybatis无法做到数据库无关性, 如果需要实现支持多种数据库的软件则需要自定义多套sql映射文件,工作量大。 3)Hibernate对象/关系映射能力强,数据库无关性好, 对于关系模型要求高的软件(例如需求固定的定制化软件) 如果用hibernate开发可以节省很多代码,提高效率。 但是Hibernate的缺点是学习门槛高,要精通门槛更高, 而且怎么设计O/R映射,在性能和对象模型之间如何权衡, 以及怎样用好Hibernate需要具有很强的经验和能力才行。 总之,按照用户的需求在有限的资源环境下只要能做出维护性、 扩展性良好的软件架构都是好架构,所以框架只有适合才是最好。 MyBatis的好处是什么? 1)MyBatis把sql语句从Java源程序中独立出来,放在单独的XML文件中编写, 给程序的维护带来了很大便利。 2)MyBatis封装了底层JDBC API的调用细节,并能自动将结果集转换成Java Bean对象, 大大简化了Java数据库编程的重复工作。 3)因为MyBatis需要程序员自己去编写sql语句, 程序员可以结合数据库自身的特点灵活控制sql语句, 因此能够实现比Hibernate等全自动orm框架更高的查询效率,能够完成复杂查询。 简述Mybatis的Xml映射文件和Mybatis内部数据结构之间的映射关系? Mybatis将所有Xml配置信息都封装到All-In-One重量级对象Configuration内部。 在Xml映射文件中,<parameterMap>标签会被解析为ParameterMap对象, 其每个子元素会被解析为ParameterMapping对象。 <resultMap>标签会被解析为ResultMap对象, 其每个子元素会被解析为ResultMapping对象。 每一个<select>、<insert>、<update>、<delete> 标签均会被解析为MappedStatement对象, 标签内的sql会被解析为BoundSql对象。 什么是MyBatis的接口绑定,有什么好处? 接口映射就是在MyBatis中任意定义接口,然后把接口里面的方法和SQL语句绑定, 我们直接调用接口方法就可以,这样比起原来了SqlSession提供的方法我们可以有更加灵活的选择和设置. 接口绑定有几种实现方式,分别是怎么实现的? 接口绑定有两种实现方式,一种是通过注解绑定,就是在接口的方法上面加 上@Select@Update等注解里面包含Sql语句来绑定, 另外一种就是通过xml里面写SQL来绑定,在这种情况下, 要指定xml映射文件里面的namespace必须为接口的全路径名. 什么情况下用注解绑定,什么情况下用xml绑定? 当Sql语句比较简单时候,用注解绑定;当SQL语句比较复杂时候,用xml绑定,一般用xml绑定的比较多 MyBatis实现一对一有几种方式?具体怎么操作的? 有联合查询和嵌套查询,联合查询是几个表联合查询,只查询一次, 通过在resultMap里面配置association节点配置一对一的类就可以完成; 嵌套查询是先查一个表,根据这个表里面的结果的外键id, 去再另外一个表里面查询数据,也是通过association配置, 但另外一个表的查询通过select属性配置。 Mybatis能执行一对一、一对多的关联查询吗?都有哪些实现方式,以及它们之间的区别? 能,Mybatis不仅可以执行一对一、一对多的关联查询, 还可以执行多对一,多对多的关联查询,多对一查询, 其实就是一对一查询,只需要把selectOne修改为selectList即可; 多对多查询,其实就是一对多查询,只需要把selectOne修改为selectList即可。 关联对象查询,有两种实现方式,一种是单独发送一个sql去查询关联对象, 赋给主对象,然后返回主对象。另一种是使用嵌套查询,嵌套查询的含义为使用join查询, 一部分列是A对象的属性值,另外一部分列是关联对象B的属性值, 好处是只发一个sql查询,就可以把主对象和其关联对象查出来。 MyBatis里面的动态Sql是怎么设定的?用什么语法? MyBatis里面的动态Sql一般是通过if节点来实现,通过OGNL语法来实现, 但是如果要写的完整,必须配合where,trim节点,where节点是判断包含节点有 内容就插入where,否则不插入,trim节点是用来判断如果动态语句是以and 或or 开始,那么会自动把这个and或者or取掉。 Mybatis是如何将sql执行结果封装为目标对象并返回的?都有哪些映射形式? 第一种是使用<resultMap>标签,逐一定义列名和对象属性名之间的映射关系。 第二种是使用sql列的别名功能,将列别名书写为对象属性名, 比如T_NAME AS NAME,对象属性名一般是name,小写, 但是列名不区分大小写,Mybatis会忽略列名大小写,
-
nginx代理https后应用程序将https重定向为http--并希望然后jetty request.getScheme fetch https(8和9有区别,8我只是稍微修改了代码)
-
go语言Socket编程-Socket编程 什么是Socket Socket,英文含义是插座、插孔,一般称之为套接字,用于描述IP地址和端口。可以实现不同程序间的数据通信。 Socket起源于Unix,而Unix基本哲学之一就是“一切皆文件”,都可以用“打开open –> 读写write/read –> 关闭close”模式来操作。Socket就是该模式的一个实现,网络的Socket数据传输是一种特殊的I/O,Socket也是一种文件描述符。Socket也具有一个类似于打开文件的函数调用:Socket,该函数返回一个整型的Socket描述符,随后的连接建立、数据传输等操作都是通过该Socket实现的。 套接字的内核实现较为复杂,不宜在学习初期深入学习,了解到如下结构足矣。 套接字通讯原理示意 在TCP/IP协议中,“IP地址+TCP或UDP端口号”唯一标识网络通讯中的一个进程。“IP地址+端口号”就对应一个socket。欲建立连接的两个进程各自有一个socket来标识,那么这两个socket组成的socket pair就唯一标识一个连接。因此可以用Socket来描述网络连接的一对一关系。 常用的Socket类型有两种:流式Socket(SOCK_STREAM)和数据报式Socket(SOCK_DGRAM)。流式是一种面向连接的Socket,针对于面向连接的TCP服务应用;数据报式Socket是一种无连接的Socket,对应于无连接的UDP服务应用。 网络应用程序设计模式 C/S模式 传统的网络应用设计模式,客户机(client)/服务器(server)模式。需要在通讯两端各自部署客户机和服务器来完成数据通信。 B/S模式 浏览器(Browser)/服务器(Server)模式。只需在一端部署服务器,而另外一端使用每台PC都默认配置的浏览器即可完成数据的传输。 优缺点 对于C/S模式来说,其优点明显。客户端位于目标主机上可以保证性能,将数据缓存至客户端本地,从而提高数据传输效率。且,一般来说客户端和服务器程序由一个开发团队创作,所以他们之间所采用的协议相对灵活。可以在标准协议的基础上根据需求裁剪及定制。例如,腾讯所采用的通信协议,即为ftp协议的修改剪裁版。 因此,传统的网络应用程序及较大型的网络应用程序都首选C/S模式进行开发。如,知名的网络游戏魔兽世界。3D画面,数据量庞大,使用C/S模式可以提前在本地进行大量数据的缓存处理,从而提高观感。 C/S模式的缺点也较突出。由于客户端和服务器都需要有一个开发团队来完成开发。工作量将成倍提升,开发周期较长。另外,从用户角度出发,需要将客户端安插至用户主机上,对用户主机的安全性构成威胁。这也是很多用户不愿使用C/S模式应用程序的重要原因。 B/S模式相比C/S模式而言,由于它没有独立的客户端,使用标准浏览器作为客户端,其工作开发量较小。只需开发服务器端即可。另外由于其采用浏览器显示数据,因此移植性非常好,不受平台限制。如早期的偷菜游戏,在各个平台上都可以完美运行。 B/S模式的缺点也较明显。由于使用第三方浏览器,因此网络应用支持受限。另外,没有客户端放到对方主机上,缓存数据不尽如人意,从而传输数据量受到限制。应用的观感大打折扣。第三,必须与浏览器一样,采用标准http协议进行通信,协议选择不灵活。 因此在开发过程中,模式的选择由上述各自的特点决定。根据实际需求选择应用程序设计模式。 简单的C/S模型通信 Server端:Listen函数 func Listen(network, address string) (Listener, error) network:选用的协议:TCP、UDP, 如:“tcp”或 “udp” address:IP地址+端口号, 如:“127.0.0.1:8000”或 “:8000” Listener 接口: type Listener interface { Accept (Conn, error) Close error Addr Addr } Conn 接口: type Conn interface { Read(b byte) (n int, err error) Write(b byte) (n int, err error) Close error LocalAddr Addr RemoteAddr Addr SetDeadline(t time.Time) error SetReadDeadline(t time.Time) error SetWriteDeadline(t time.Time) error } 参看 [<u>https://studygolang.com/pkgdoc</u>](https://studygolang.com/pkgdoc) 中文帮助文档中的demo: 示例代码:TCP服务器.go package main import ( "net" "fmt" ) func main { // 创建监听 listener, err:= net.Listen("tcp", ":8000") if err != nil { fmt.Println("listen err:", err) return } defer listener.Close // 主协程结束时,关闭listener fmt.Println("服务器等待客户端建立连接...") // 等待客户端连接请求 conn, err := listener.Accept if err != nil { fmt.Println("accept err:", err) return } defer conn.Close // 使用结束,断开与客户端链接 fmt.Println("客户端与服务器连接建立成功...") // 接收客户端数据 buf := make(byte, 1024) // 创建1024大小的缓冲区,用于read n, err := conn.Read(buf) if err != nil { fmt.Println("read err:", err) return } fmt.Println("服务器读到:", string(buf[:n])) // 读多少,打印多少。 }
-
项目 安卓食谱应用程序的设计和实施 源代码 安卓食谱应用程序