former

阅读 / 问答 / 标签

transformer的权重矩阵是对称的吗

原始的transformer是全对称的,也就是改变两个字符的位置,预测结果可能是相同的,这点与不同的权重矩阵无关。Transformer算法由Alex Graves提出,旨在解决序列转换问题(The problem of sequence transduction),输入已知序列,输出目标序列,用于语音识别、文本翻译、人机对话等。算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法代表着用系统的方法描述解决问题的策略机制。也就是说,能够对一定规范的输入,在有限时间内获得所要求的输出。算法中的指令描述的是一个计算,当其运行时能从一个初始状态和(可能为空的)初始输入开始,经过一系列有限而清晰定义的状态,最终产生输出并停止于一个终态。

Transformer 的注意力头越多越好么

多头注意力机制的目的是通过捕捉不同的注意力信息来提升 AI 模型的表达能力。利用多头矩阵的子空间从不同的视角或者说维度来表达输入的数据。 从贝叶斯神经网络的角度,多头注意力机制是一种采样(Sampling)技术, 每个注意力头是一个采样。 每个头区分度越大,相当于视角越多, 这样的话按道理Transformer 对目标可以进行更好的拟合。 但注意力头真的是越多越好么?(不考虑过拟合和硬件条件的情况下) 问题的关键是注意力头本身是矩阵形式,对输入数据进行线性变换, 得到的结果是离散的而非连续的, 不能够真正表达连续的目标概率分布。与真正的目标间存在误差,而注意力头越多,累计误差也会越大,导致模型的表现也变差。 训练的时候注意力头越多拟合的越好,但是 test 的时候注意力头多不一定效果好,并且还比较多余。 这个我们人脑的机制是一样的, 我们阅读一段文字,很快的读过去, 能够注意到的关键点和它们之间的联系并不会特别多,但也不妨碍我们理解一段话的意思。所以这给我们一个启示,对神经网络的设计,很多时候可以参考人脑思考运行的规律, 模拟人脑的运行策略,也会获得接近的运行效果。 Reference: Transformer 101 个思考问题: https://gitee.com/oatmeal3000/Transformer101Q

The Transformer

Transformer是个叠加的“自注意力机制(Self Attention)”构成的深度网络,是目前NLP里最强的特征提取器。 论文: Attention Is All You Need 整体上还是由Encoders和Decoders两部分组成的,而每一个部分是由6个Encoder和Decoder堆栈成的,每个的结构完全相同,但不共享权重。 每个Encoder由两部分组成:Multi-head self-attention层和Feed Forward NN层。 每个Decoder由三部分组成:Multi-head self-attention层,Encoder-Decoder Attention层和Feed Forward NN层。 动机:当模型处理每个单词(输入序列中的每个位置)时,self-attention允许它查看输入序列中的其他位置以寻找可以帮助导致对该单词更好的编码的线索。 使用矩阵形式可以并行计算。 图示 : 动机:将信息映射到不同的子空间,可能会抓取到不同位置的注意信息。 按照self-attention方式进行相同的几次计算(论文中使用8头),每次使用不同的权重矩阵( , 和 ),最终会得到几个不同的 矩阵,将它们直接拼接起来得到一个很长的矩阵 ,再乘以一个参数矩阵 将矩阵压缩到低维(同Embedding维数)。 单词顺序是NLP中非常重要的信息,所以加入Position encoding是考虑输入序列中单词顺序的一种方法。将位置编码与Embedding向量直接加起来得到真正的单词输入向量。 论文中给出了两个位置编码公式: 该层为简单的全连接层,使用了RELU激活函数,论文中该全连接的隐藏层维数为2048,公式如下: 在每一个子层的结束,输出矩阵为 ,我们将该层的输入矩阵 和 直接相加,再做Normalize操作 ,该Norm函数引用了 参考文献1: Layer Normalization 。 Norm方法有很多,但它们都有一个共同的目的,那就是把输入转化成均值为0方差为1的数据。我们在把数据送入激活函数之前进行normalization,因为我们不希望输入数据落在激活函数的饱和区。 该层是一个简单的全连接网络,将最后一个Decoder输出的向量投影到一个更高维度的空间去(词典维数)。 softmax层将Linear层的输出向量转化为概率输出,选择最大概率的单词作为输出。 Encoders最后将 和 输出给每个Decoder的Encoder-Decoder层: Padding mask在所有的scaled dot-product attention里面都需要用到,而Sequence mask只有在Decoder的self-attention里面用到。 语料库中每个句子的长度是不同的,我们需要对齐。使用我们设置的阈值(一般为255),对于较长的序列,直接截取左边的序列,对于较短的序列,在其后添加0。 而在scaled dot-product attention中,不能对这部分添加了0的单词位置加上较高的注意力,所以在self-attention中的softmax之前,直接将这些位置的值设为 ,经过softmax后这些位置的概率值会变为0。 即下图中的 Mask(opt.) 块: Sequence mask是为了使得Decoder不能看见未来的信息,使得解码器的attention只能关注当前解码单词之前的输出单词,而不能依赖后面未解码出来的。 所以跟Padding mask一样,对其后的单词位置直接设为 ,经过softmax后这些位置的概率值会变为0。 这步操作对应Decoder中第一个构件:Masked Multi-head Attention。 使用交叉熵或者KL散度去比较两个输出之间的差距,然后使用反向传播优化其中的所有参数。 在最后的softmax层我们直接输出了最大值位置的单词,叫做贪婪解码。 另一种更合理的解码方式叫做 束搜索 。假设第1#位置解码出的概率值,前两大的位置单词为 I 和 me ,那么在第2#位置解码时,依赖的第1#位置单词分别取为 I 和 me ,分别跑两次算法,在其中再选两个得分最高(或误差最小)的结果,依次类推。最终会得到两个得分最高的序列。

Transformer和LSTM的对比

现在的想法是transformer模型建立依赖关系的能力可能是依旧比较差。 Transformer 长程依赖的捕获能力是比 RNN 类结构差的。 这点在最近 Transformer-XL [1] 的文章中有体现。 可以看的到 Transformer 是比 RNN 有明显差距的。虽然读了这个 RECL 的定义感觉作者有强行定超参拉开两者差距之嫌,但毫无疑问的是 Transformer 确实是最糟糕的,只是不一定有数字上好几倍这么夸张。 但是,题目叙述中有一个误解,我们可以说 Transformer 建立长程依赖的能力差,但这不是 Self-Attention 的锅。 但summarization(摘要)任务上需要考虑的是成篇章级别,并且长距离依赖,这时单靠self-attention建模依赖关系可能仍显不足,而这时候lstm的优势反而凸显出来 Self-Attention 可以使任意两个 token 间的依赖计算变为常数,长距离依赖上 Self-Attention 是强于 RNN 结构的。要说问题,出也是出在 positional embedding 上,很多最近的 paper 都在尝试调整这一部分,也证明大家确实觉得现在这里是有问题的。 但另一方面, Self-Attention 其实并不是 Transformer 的全部。 个人来看, 从深度 CNN 网络中借鉴而来的 FFN(全连接层) 可能更加重要。 事实上 18 年 ACL [2] 有人做过实验,把 Transformer 里的 Self-Attention 换成 RNN 和 CNN,发现其实性能几乎没降多少。而带来性能提高的,主要是 FFN with residual 和 multiple heads. 最后,不负责任的猜测,Transformer 在 Summarization 上不够好,其实可能更多的是数据量的问题。 Transformer 这个结构最牛逼的地方就在于它第一次做到了在 NLP 中把深度叠上去还能 work, 而 NMT 恰好也是一个目前数据量非常丰富且问题尺度本身不大的一个任务了,充分发挥了 Transformer 的优势。而 Summarization 任务,相对于其 pairphrase 本身的长度,benchmark 的数据样本总量可能就略显不足了。 记得之前在哪看过一个图来着,说是 RNN 在中等数据量(几十万级别以下)下效果是比较好的,忘记出处了,有同学记得的话求评论提醒哈~ Reference [1] Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context [2] How Much Attention Do You Need? A Granular Analysis of Neural Machine Translation Architectures

transformer与cnn相比优缺点

transformer与cnn相比优缺点如下:Transformer优点:(1)突破了RNN模型不能并行计算的限制。(2)相比CNN,计算两个位置之间的关联所需要的操作次数不会随着距离的增长而增加。(3)attention机制可以产生更具可解释性的模型,可以从模型中检查attention分布,各个attention head可以学会执行不同的任务。(4)Selfattention天然就能解决这个问题,因为在集成信息的时候,当前单词和句子中任意单词都发生了联系,一步到位。Transformer缺点:(1)局部信息的获取不如RNN和CNN强。(2)位置信息编码存在问题,因为位普编码在语义空间中并不具备词向量的可线性变换,只是相当干人为设计的一种索引,所以并不能很好表征位置信息。(3)由于transformer模型实际上是由残差模块和层归一化模块组合而成,并且层归一化模块位于两个残差模块之间,导致如果层数较多时连乘计算会使得顶层出现梯度消失问题。特征表示能力CNN可以通过卷积层提取出具有空间特征的特征表示,例如边缘、角点等,这些特征表示可以用于图像分类、目标检测、人脸识别等任务。RNN可以通过循环层提取出具有时序特征的特征表示,例如序列中的依赖关系和上下文信息,这些特征表示可以用于文本分类、语音识别、音乐生成等任务。Transformer可以通过多头注意力机制提取出具有上下文关联性的特征表示,例如文本中的关键词和语义信息,这些特征表示可以用于机器翻译、文本生成、问答系统等任务。

transformer音译歌词

希望采纳~~~She"s such a transformerEXO Let"s goHold up hold up hold up hold up错r miong哈gi 哦lio我可nio 摸呀 得切 摸n得jio gi jio gi jio gi jio gi孙西噶内 多r bion哈mion 刚当哈gi hin等得You slow down then you speed up她be nou(b)几 个就 mong哈你 吧大吧所内噶 都jion哈r gi了r 比qio军 girl许b几 啊那 诺嫩 mega girlOh baby baby baby加里谈 慢肯 mv喊没nou嫩 抗lio嘞 nun不xio吗搜 撒无r sian噶 够b搜Hey pretty ladycian噶慢 多 gi破奇嫩得穷都 抗哈给 得龙 不的咯b给可nio 啊Pe 啊Pe 啊Pe 所r 得Tick tick boom boombout to blow丧丧jio掐 摸忒搜东个内 奇Be哈嫩 qu因 那也 偶呢Cause you"re you"reyou"re atransformer掐 一接 个nio也 西敢哦东 bio里 诺r 波内你Girl you got me got me一 给一没 wi呢Cause you"re you"reyou"re atransformerYou come around难 攻加 摸忒诺木 破gi jio扩疼哈 个色 都 bio你内忙E(r) qiong嘿 西噶你 呀噶b大You slow downthen you speed up大be nou(b)几 可就 mong哈你 吧拉吧所内噶 都jion哈r gi了r 比qio军 girl许b几 啊那 诺嫩 mega girlOh baby baby baby加里谈 慢肯 mv喊没nou嫩 抗lio嘞 nun不xio吗搜 撒无r sian噶 够b搜Hey pretty ladycian噶慢 多 gi破奇嫩得穷都 抗哈给 得龙 不的咯b给可nio 啊Pe 啊Pe 啊Pe 所r 得Tick tick boom boombout to blow丧丧jio掐 摸忒搜东个内 奇Be哈嫩 qu因 那也 偶呢Cause you"re you"reyou"re atransformer掐 一接 个nio也 西敢哦东 bio里 诺r 波内你Girl you got me got me一 给一没 wi呢Cause you"re you"reyou"re atransformer诶忒无几 吗拉jio一龙 西敢 皮lio 我b所哟gi所 nou哇 那 都 摸噶 皮lio哈给你哦东 摸丝b nou拉都图lio我jio都 诺了r 噶几嘞Tell me now it"skilling me babyTick tick boom boombout to blow丧丧jio掐 摸忒搜东个内 奇Be哈嫩 qu因 那也 偶呢Cause you"re you"reyou"re atransformer掐 一接 个nio也 西敢哦东 bio里 诺r 波内你Girl you got me got me一 给一没 wi呢Cause you"re you"reyou"re atransformer诺r 破内 诺r 我内Then you transform那了r 那了r 呢gi你Or are you gonna transform

transformer韩文歌词分配表

其实可以听出来的

求EXO的Transformer歌词分配U0001f62dU0001f62d

我也想知道,我想知道最后两句是谁唱的,

求exo transformer的歌词韩文直译

TRANSFORMER (变形女)韩文作词:Kenzie中文作词:T-Crash曲/编:Kenzie / Jonathan Yip / Jeremy Reeves / Ray Romulus / Ray McCulloughShe"s such a transformerEXO! Let"s go!Hold up, hold up, hold up, hold up无法用言语形容 她到底是什么东西那里 那里 那里 那里刹那之间 开始蜕变 连准备都 来不及You slow down, then you speed up没有答案 只能惊惶的呆在原地把我要挑战的路照亮的 Girl了不起的你是 Mega girlOh baby baby baby 危险的太惊心动魄你散发的光太耀眼 绝不会想和你对决Hey pretty lady 思维早已为了你深陷有时很温柔 有时特别强烈站在 你的 你的 你的 面前Tick tick boom boom bout to blow太过不同无法想象交出一切让你成为 我的 OwnerCause you"re you"re you"re a transformer就现在是你的时间哪个星球将你派遣Girl you got me got me 这游戏的 WinnerCause you"re you"re you"re a transformerYou come around 我无法挣扎你看起来太养眼 Oh 变了转眼之间下了决心 舍不得这时间You slow down, then you speed up没有答案 只能惊惶的呆在原地把我要挑战的路照亮的 Girl了不起的你是 Mega girlOh baby baby baby 危险的太惊心动魄你散发的光太耀眼 绝不会想和你对决Hey pretty lady 思维早已为了你深陷有时很温柔 有时特别强烈站在 你的 你的 你的 面前Tick tick boom boom bout to blow太过不同无法想象交出一切让你成为 我的 OwnerCause you"re you"re you"re a transformer*** 就现在是你的时间哪个星球将你派遣Girl you got me got me 这游戏的 WinnerCause you"re you"re you"re a transformer不用太过的烦躁 浪费时间没必要的就在这你和我 到底还需要些什么不管变成什么样, 就算变灰暗, 也要抓住你Tell me now, It"s killing me babyTick tick boom boom bout to blow太过不同无法想象交出一切让你成为 我的 OwnerCause you"re you"re you"re a transformer就现在是你的时间哪个星球将你派遣Girl you got me got me 这游戏的 WinnerCause you"re you"re you"re a transformer想见你, 想要你 Then you transform能否能否感受我 Or are you gonna transform?

Transformer为什么适合自动驾驶?毫末智行CEO顾维灏亲自揭秘

作为在自然语言处理(NLP)领域应用广泛的深度学习模型,Transformer 近两年强势来袭,不仅横扫 NLP 领域,而且在 CV 上也锋芒毕露。江湖传言,Transformer 架构就像是绝世高手的武林秘籍,得秘籍者得天下! 毫末智行作为国内首先大规模使用 Vision Transformer 技术的公司,CEO顾维灏第一时间在内部推动了此项技术的落地,力求在智能驾驶的赛道上能抢占先机。 Transformer 的杀手锏 据顾维灏介绍,最初的 Transformer 来自于 NLP,它的出现将 NLP 领域向前推动了一大步。其中的关键要素就是Transformer 具备:超强的序列建模能力、全局信息感知能力。 得益于这两点优势,Transformer 几乎取代了基于 RNN 的算法在 NLP 中的地位,也被引入到 CV 领域。但值得深入思考的是,Transformer 如何利用优势在视觉领域发挥作用呢? 要知道 NLP 中处理的是语句,句子是天然的序列数据,所以很容易理解 Transformer 是如何处理它们的。可在视觉领域,“序列”的概念并不是显式的,因此可以从空间和时间两个维度去理解。 首先是空间维度,静态图像从空间上可以被划分成多个区域(block),一种典型的划分方式就是按照高和宽进行划分,例如,一幅图像的高和宽分别是 H 和 W,如果要求 block 的长宽均为 M,那么最终会得到 (H/M W/M) 个 block。 其实可以把 block 看成是 NLP 句子中的词,这里的只不过是“视觉词”(visual words)。这样一来,就可以将一幅图像转化成一个按照空间顺序排列的 block 集合,一方面这样的视角转换保证了不丢失视觉信息,另一方面让应用 Transformer 变得非常容易。 另一种则是通过时间维度去理解视觉中的序列,即视频。视频是由静态的图像帧组成,把每一帧看成是一个基本单元(同样可以类别成句子中的词),那么就可以很自然地按照时间序列把一个片段组织起来,从而应用 Transformer 进行后续的特征提取。 图引自论文《An Image is Worth 16x16 Words Transformer for Image Recognition at scale”》 除了强大的序列建模能力,Transformer 的主要模块 Multi-Head Self-Attention 可以同时感知到输入序列的全局信息,这是 Transformer 相比于 CNN 的巨大优势。在 CNN 中,信息只能从局部开始,随着层数的增加,能够被感知到的区域逐步增大。然而 Transformer 从输入开始,每一层结构都可以看到所有的信息,并且建立基本单元之间的关联,也意味着Transformer 能够处理更加复杂的问题。 Transformer 的优化升级 目前处于 Transformer 在视觉中应用的早期,大家使用 Transformer 的方式主要参考了其在 NLP 中的应用经验。但是,如果直接将 Transformer 应用到视觉上,也会存在一些难题。 其一,核心模块多头注意力机制(Multi-Head Self-Attention )的计算量与 block 的个数成正比,因此在视觉中 block 数量要远多于 NLP 中句子的词数,这就造成了计算量的陡增。 其二,Transformer 擅长全局关系的学习,对于局部细节信息关注有限,然而视觉中很多任务需要足够丰富的细节信息做判断,比如语义分割。 针对上述的问题, 毫末智行人工智能研发团队对核心模块多头注意力机制(Multi-Head Self-Attention)进行了优化,同时采用了金字塔的结构增强 Transformer 对于细节信息的感知。 图引自论文《LeViT a Vision Transformer in ConvNet Clothing for Faster Inference》 Transformer 的未来演化 尽管我们在上面提到了 Transformer 的一些不尽如意之处,但随着研究的深入,大家逐步发现在同一结构中结合 CNN 和 Transformer 各自的优势,即可做到相互的扬长避短。在未来,把CNN 和 Transformer 进行整合将成为 Transformer 的演化路径之一。 具体来说,主干网使用 CNN,Head 使用 Transformer 结构,可以有效提升网络的速度(相比纯使用 Transformer);相反,主干网使用 Transformer 结构,Head 使用 CNN 的结构,可以有效提升结果精度(相比于纯使用 CNN)。 其次,核心模块 Multi-Head Self-Attention 内部也可以通过降低子空间的维度、对输入 block 进行分组等手段降低其计算量且不至于损失过多精度。 最后,通过控制 block 的粒度,使 Transformer 能够感知到不同尺度的信息,从而达到局部和全局的信息融合。 毫末智行团队已经将上述的改进逐步添加到了毫末智行自己的模型中。未来,我们将不断在提升速度的同时保证出色的精度,让 Transformer 在实际的业务中生根发芽。 图引自论文《End to End Object Detection with Transformers》 基于 Transformer 的感知算法表现出了极强的泛化性和鲁棒性,也因此顾维灏坚定认为,Transformer 的优秀特性极有可能在智能驾驶的场景中发挥出传统 CNN 算法所不能企及的感知能力。 目前, 毫末智行的人工智能团队正在逐步将基于 Transformer 的感知算法应用到实际的道路感知问题,例如车道线检测、障碍物检测、可行驶区域分割、红绿灯检测&识别、道路交通标志检测、点云检测&分割等。 未来,相关 Transformer 感知算法更加和稳定成熟后,逐步替换基于 CNN 的感知算法。 Transformer 技术的进一步应用,不仅为毫末智行在各条智能驾驶产品线上的视觉算法落地带来成倍的效率提升,还能够让各项视觉性能指标快速达到业内领先水平。

Transformer课程内容有哪些?

Transformer的架构、训练及推理等都是在Bayesian神经网络不确定性数学思维下来完成的。Encoder-Decoder架构、Multi-head注意力机制、Dropout和残差网络等都是Bayesian神经网络的具体实现;基于Transformer各种模型变种及实践也都是基于Bayesian思想指导下来应对数据的不确定性;混合使用各种类型的Embeddings来提供更好Prior信息其实是应用Bayesian思想来集成处理信息表达的不确定性、各种现代NLP比赛中高分的作品也大多是通过集成RoBERTa、GPT、ELECTRA、XLNET等Transformer模型等来尽力从最大程度来对抗模型信息表示和推理的不确定性。从数学原理的角度来说,传统Machine Learning及Deep learning算法训练的目标函数一般是基于Naive Bayes数学原理下的最大似然估计MLE和最大后验概率MAP来实现,其核心是寻找出最佳的模型参数;而Bayesian的核心是通过计算后验概率Posterior的predictive distribution,其通过提供模型的不确定来更好的表达信息及应对不确定性。对于Bayesian架构而言,多视角的先验概率Prior知识是基础,在只有小数据甚至没有数据的时候是主要依赖模型Prior概率分布(例如经典的高斯分布)来进行模型推理,随着数据的增加,多个模型会不断更新每个模型的参数来更加趋近真实数据的模型概率分布;与此同时,由于(理论上)集成所有的模型参数来进行Inference,所以Bayesian神经网络能够基于概率对结果的提供基于置信度Confidence的分布区间,从而在各种推理任务中更好的掌握数据的不确定性。

transformer怎么翻译

transformer翻译是变压器。Transformer按在机器翻译中原意可以翻译为变形器或变换器。但随着Transformer的普及,它已经成为一类以自注意力为主要部件的特定模型,其原本在机器翻译中的内涵变得不再重要,翻译成变形器反而不能涵盖其意义和除机器翻译外的场景。

速学Transformer!原理篇

首先建立一个概念,Transformer由两部分组成,编码器Encoder和解码器Decoder。 Encoder:读取输入语句并生成其representation。 Decoder:参考Encoder生成的输入语句的representation,逐词生成输出语句。 论文中的Transformer的架构图是长这个样子的,左边是Encoder,右边是Decoder: 有了一个整体性概念以后,接下来关注Encoder和Decoder部分: 看张俊林老师的文章,发现这么一句话: “这里需要强调一下,尽管Transformer原始论文一直重点在说Self Attention,但是目前来看,能让Transformer效果好的,不仅仅是Self attention,这个Block里所有元素,包括Multi-head self attention,Skip connection,LayerNorm,FF一起在发挥作用。为什么这么说?[2]” u2003u2003目前不太明白,懂了再来填坑 Transformer主要存在以下几点不足: 参考:

Transformer原理及其应用

transformer 最早使用于NLP模型中,使用了 Self-Attention 机制。相较于RNN结构可以进行并行化训练,能够 拥有全局信息 。 scale dot-product attention self-attention 过程图 query q 对 key k做attention: softmax归一化: 权重乘value v 输出转化值: 合并之前的三个图中操作: Transformer架构 Feed-Forward组件: 架构图: Transformer:[2017] attention is all you need Bert[2018]: Elmo, GPT 参数文件大小: BERT(BASE) (L=12, H=768, A=12, Total Parameters=110M) BERT(LARGE) (L=24, H=1024,A=16, Total Parameters=340M) IGPT: 借鉴bert思想,OpenAI尝试对测试数据随机mask 5 个token,最终ImageNet结果果然上升了一些(红色)。由于马赛克操作过于严重(整张图片都mask了),尽管事实证明还是有效果的,但从输入上看,降低了模型的拟合能力。 VIT: 尝试过三种预训练方法,首先mask掉50%的patch,然后: 第三种方式已经非常接近了,但是由于研究的重点不在于此便浅尝辄止了 DEIT: 在预训练阶段,最多会mask 40%的patch。 另外,作者们其实也试过复原pixel,但效果会有1.8%的下降。对于这个现象,BEiT给出的猜想是,就像多层CNN一样,编码器最终得到的应该是一个更全局、高维的表示,而复现pixel会让后几层太关注局部细节。 MAE: 轻量级架构的两大核心: 一些值得注意的细节,比如: 1.输入侧直接丢掉mask token,效果+0.7,效率x3.3 3.选取数据增强策略,效果+0.2 思考:导致视觉和语言的masked autoencoder 不一样的三大原因 规模大的简单算法是深度学习的核心。在NLP中,简单的自我监督学习方法能够从模型的规模中获益。在计算机视觉中,实用的预训练范例主要是监督式的。在这项研究中,自我监督学习已经取得了进展。我们在ImageNet和迁移学习中观察到自动编码器(一种类似于NLP技术的简单的自我监督方法)与NLP中的技术类似,提供了可扩展的好处。视觉中的自我监督学习现在可能会走上一条与NLP类似的轨迹。另一方面,我们注意到,图像和语言是不同性质的信号,这种差异必须仔细处理。图像仅仅是记录的光,没有语义分解为视觉类似物的语义分解。我们不是试图去除物体,而是去除很可能不构成语义段的随机斑块。同样地,我们的MAE重建了像素,而这些像素并不是语义实体。从测试的结果上看,MAE能推断出了复杂的、整体的重建,这表明它已经学会了许多视觉概念(语义)。我们假设,这种行为的发生通过MAE内部丰富的隐藏表征。我们希望这个观点能给未来的工作带来启发。更广泛的影响。建议的方法预测内容基于训练数据集的学习统计,因此将反映这些数据中的偏差,包括具有负面社会影响的偏差。该模型可能产生不存在的内容。这些问题值得在这项工作的基础上进一步研究和考虑,以生成图像。 有可能取代所有组件。 每个领域都可尝试,遍地开花。

图解什么是 Transformer

Transformer 是 Google 团队在 17 年 6 月提出的 NLP 经典之作, 由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。 Transformer 在机器翻译任务上的表现超过了 RNN,CNN,只用 encoder-decoder 和 attention 机制就能达到很好的效果,最大的优点是可以高效地并行化。 Transformer 是一种基于 encoder-decoder 结构的模型, 在 Encoder 中, 在 Decoder 中, 下面我们具体看一下其中这几个概念,这里主要参考 Jay Alammar,他在 The Illustrated Transformer 中给出了很形象的讲解。 例如我们要进行机器翻译任务,输入一种语言,经过 Transformer,会输出另一种语言。 Transformer 的 encoder 由 6 个编码器叠加组成, decoder 也由 6 个解码器组成, 在结构上都是相同的,但它们不共享权重。 每一个 encoder 都分为两个子层: 每一个 decoder 也具有这两个层,但还有一个注意力层,用来帮助解码器关注输入句子的相关部分 首先使用嵌入算法将输入的 word 转换为 vector, 最下面的 encoder ,它的输入就是 embedding 向量, 在每个 encoder 内部, 输入向量经过 self-attention,再经过 feed-forward 层, 每个 encoder 的输出向量是它正上方 encoder 的输入, 向量的大小是一个超参数,通常设置为训练集中最长句子的长度。 在这里,我们开始看到 Transformer 的一个关键性质, 即每个位置的单词在 encoder 中都有自己的路径, self-attention 层中的这些路径之间存在依赖关系, 然而在 feed-forward 层不具有那些依赖关系, 这样各种路径在流过 feed-forward 层时可以并行执行。 Positional Encoding 是一种考虑输入序列中单词顺序的方法。 encoder 为每个输入 embedding 添加了一个向量,这些向量符合一种特定模式,可以确定每个单词的位置,或者序列中不同单词之间的距离。 例如,input embedding 的维度为4,那么实际的positional encodings如下所示: 在下图中,是20个单词的 positional encoding,每行代表一个单词的位置编码,即第一行是加在输入序列中第一个词嵌入的,每行包含 512 个值, 每个值介于 -1 和 1 之间,用颜色表示出来。 可以看到在中心位置分成了两半,因为左半部分的值由一个正弦函数生成,右半部分由余弦函数生成,然后将它们连接起来形成了每个位置的编码向量。 当然这并不是位置编码的唯一方法,只是这个方法能够扩展到看不见的序列长度处,例如当我们要翻译一个句子,这个句子的长度比我们训练集中的任何一个句子都长时。 例如我们要翻译:”The animal didn"t cross the street because it was too tired” 这句话 这句话中的“it”是指什么?它指的是 street 还是 animal? 这对人类来说是一个简单的问题,但对算法来说并不简单。 而 Self-Attention 让算法知道这里的 it 指的是 animal 当模型在处理每个单词时,self-attention 可以帮助模型查看 input 序列中的其他位置,寻找相关的线索,来达到更好的编码效果。它的作用就是将对其他相关单词的“understanding”融入我们当前正在处理的单词中。 例如上图中,在第5层时,我们就知道 it 大概指的是 animal 了。 第一步,为编码器的每个输入单词创建三个向量, 即 Query vector, Key vector, Value vector 这些向量通过 embedding 和三个矩阵相乘得到, 请注意,这些新向量的尺寸小于嵌入向量。它们的维数为64,而嵌入和编码器输入/输出向量的维数为512.它们不一定要小,这是一种架构选择,可以使多头注意力计算(大多数)不变。 将x1乘以WQ得到Query向量 q1,同理得到Key 向量 和, Value 向量 这三个向量对 attention 的计算有很重要的作用 第二步,是计算一个得分 假设我们要计算一个例子中第一个单词 “Thinking” 的 self-attention,就需要根据这个单词,对输入句子的每个单词进行评分,这个分数决定了对其他单词放置多少关注度。 分数的计算方法是, 例如我们正在考虑 Thinking 这个词,就用它的 q1 去乘以每个位置的 ki 第三步和第四步,是将得分加以处理再传递给 softmax 将得分除以 8(因为论文中使用的 key 向量的维数是 64,8 是它的平方根) 这样可以有更稳定的梯度, 然后传递给 softmax,Softmax 就将分数标准化,这样加起来保证为 1。 这个 softmax 分数决定了每个单词在该位置bbei表达的程度。 很明显,这个位置上的单词将具有最高的softmax分数,但有时候注意与当前单词相关的另一个单词是有用的。 第五步,用这个得分乘以每个 value 向量 目的让我们想要关注单词的值保持不变,并通过乘以 0.001 这样小的数字,来淹没不相关的单词 第六步,加权求和这些 value 向量 这就是第一个单词的 self-attention 的输出 得到的向量接下来要输入到前馈神经网络,在实际实现中用矩阵乘法的形式完成 论文中还增加一种称为 multi-headed 注意力机制,可以提升注意力层的性能 它使得模型可以关注不同位置 虽然在上面的例子中,z1 包含了一点其他位置的编码,但当前位置的单词还是占主要作用, 当我们想知道“The animal didn"t cross the street because it was too tired” 中 it 的含义时,这时就需要关注到其他位置 这个机制为注意层提供了多个“表示子空间”。下面我们将具体介绍, 1. 经过 multi-headed , 我们会得到和 heads 数目一样多的 Query / Key / Value 权重矩阵组 论文中用了8个,那么每个encoder/decoder我们都会得到 8 个集合。 这些集合都是随机初始化的,经过训练之后,每个集合会将input embeddings 投影到不同的表示子空间中。 2. 简单来说,就是定义 8 组权重矩阵,每个单词会做 8 次上面的 self-attention 的计算 这样每个单词会得到 8 个不同的加权求和 z 3. 但在 feed-forward 处只能接收一个矩阵,所以需要将这八个压缩成一个矩阵 方法就是先将8个z矩阵连接起来,然后乘一个额外的权重矩阵WO 下图显示了在例句中,it 的不同的注意力 heads 所关注的位置,一个注意力的焦点主要集中在“animal”上,而另一个注意力集中在“tired”,换句话说,it 是 “animal”和“tired”的一种表现形式。 当然如果选了8个层,将所有注意力 heads 都添加到图片中,就有点难以解释了。 这里有一个细节, 即在每个 encoders 和 decoders 里面的 self-attention, ffnn,encoders-decoders attention 层,都有 residual 连接,还有一步 layer-normalization 下面我们看一下 Decoder 部分 1. 输入序列经过编码器部分,然后将最上面的 encoder 的输出变换成一组 attention 向量 K和V 这些向量会用于每个 decoder 的 encoder-decoder attention 层,有助于解码器聚焦在输入序列中的合适位置 重复上面的过程,直到 decoder 完成了输出,每个时间步的输出都在下一个时间步时喂入给最底部的 decoder,同样,在这些 decoder 的输入中也加入了位置编码,来表示每个字的位置。 2. 解码器中的 self attention 层与编码器中的略有不同 在解码器中,在 self attention 的 softmax 步骤之前,将未来的位置设置为 -inf 来屏蔽这些位置,这样做是为了 self attention 层只能关注输出序列中靠前的一些位置。 Encoder-Decoder Attention 层的工作方式与 multiheaded self-attention 类似,只是它用下面的层创建其 Queries 矩阵,从编码器栈的输出中获取 Keys 和 Values 矩阵。 3. 解码器最后输出的是一个向量,如何把它变成一个单词,这就要靠它后面的线性层和 softmax 层 线性层就是一个很简单的全连接神经网络,将解码器输出的向量映射成一个更长的向量。 例如我们有 10,000 个无重复的单词,那么最后输出的向量就有一万维。 每个位置上的值代表了相应单词的分数。 softmax 层将这个分数转换为了概率。 我们选择概率最大的所对应的单词,就是当前时间步的输出。 学习资源: https://arxiv.org/pdf/1706.03762.pdf https://jalammar.github.io/illustrated-transformer/ https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

transformer是什么

transformer是变压器电力变压器是一种静止的电气设备,是用来将某一数值的交流电压(电流)变成频率相同的另一种或几种数值不同的电压(电流)的设备。具有两个或多个绕组的静止设备,为了传输电能,在同一频率下,通过电磁感应将一个系统的交流电压和电流转换为另一系统的电压和电流,通常这些电流和电压的值是不同的。变压器是用来变换交流电压、电流而传输交流电能的一种静止的电器设备。它是根据电磁感应的原理实现电能传递的。变压器就其用途可分为电力变压器、试验变压器、仪用变压器及特殊用途的变压器:电力变压器是电力输配电、电力用户配电的必要设备。试验变压器对电器设备进行耐压(升压)试验的设备;仪用变压器作为配电系统的电气测量、继电保护之用(PT、CT);特殊用途的变压器有冶炼用电炉变压器、电焊变压器、电解用整流变压器、小型调压变压器等。电力变压器是一种静止的电气设备,是用来将某一数值的交流电压(电流)变成频率相同的另一种或几种数值不同的电压(电流)的设备。当一次绕组通以交流电时,就产生交变的磁通,交变的磁通通过铁芯导磁作用,就在二次绕组中感应出交流电动势。二次感应电动势的高低与一二次绕组匝数的多少有关,即电压大小与匝数成正比。

former和formal区别?

您好,former 和 formal 都可以作为(形容词)或是(名词)使用,区别在于:A)作形容词使用:1)former 只能作为(定语)使用,不能作为(表语)使用,表示使用 former 时,必须是(former + 名词)的结构,通常译为【前任的;曾经当过……的;以前的,早先的;(两者中)前者的】,比如:her former boyfriend(她以前的男友)in former time(从前)those who take the former view(那些持前一观点的人)2)formal 可以作用为(定语)使用,也可以作为(表语)使用,通常译为【正式的,符合传统的;(与)形式(有关)的;表面化的】,比如:a formal dinner party(正式宴会)a formal education(正规教育)the purely formal qualities of art(纯形式上的艺术特性)the meeting was purely formal(会议是纯粹的走过场)B)作名词使用:1)former,通常译为【形成某事的人或事;成新设备,模子】,比如:an opinion-formr(舆论制造者)an arch formr(拱模)fifth-formers(五年级学生;英国教育 form 为年级,所以 former 为年级生)2)formal,在美式英语中,替代 formal wear(晚礼服)的简化方式。比如 go formal(穿着晚礼服)的意思。

ViT 对比 swin Transformer 2021-05-18

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE https://arxiv.org/pdf/2010.11929.pdf 这篇工作Vision Transformer基于NLP领域中大放异彩的Transformer模型来处理视觉领域的任务。作者将二维的图像数据用一个简单的方式转换为和Transformer中处理的句子序列差不多的形式, 然后使用 Transformer编码器来提取特征。Transformer的论文叫Attention is all you need, 现在在深度学习领域中提到Attention可能大家都会想到Transformer的self-Attention自注意力,其实注意力机制刚开始是应用于循环神经网络中的,self-Attention可以看成是一个更通用的版本。Attention本来是在Encoder-Decoder框架中关乎中间的隐藏状态的这么一个函数。 而self-Attention无所谓隐藏状态,只关注输入序列中向量之间的依赖关系。Transformer给出了一个非常简洁的公式 。 看到softmax就知道是在求概率,V代表的是数值,QK代表一个查字典的操作。但是这样还是很抽象,要理解的话得把矩阵拆成向量才行。这里推荐一篇可视化Transformer的博客。 https://jalammar.github.io/illustrated-transformer/ 我的理解就是把原向量进行三次编码,然后在计算attention结果的时候,一个编码只和自己有关,代表该token的特征,另外两个用来和序列中其他向量的编码进行匹配,得到当前向量与其他向量之间的关联程度。 卷积在视觉中占主流的原因很重要的原因是局部感受野,另外卷积的形式一坨一坨的很契合对图片数据的处理。但是,卷积的感受野是受限的,要多层抽象才能得到一个比较大的感受野。而自注意力我觉得可以理解为在输入的全局中有选择的进行权重。这个过程进行多次,就是多头自注意力机制。 最终的编码就长成这个样子: 对应: 既然已经通过上面的处理把图片的输入转化为Tranformer处理单词序列的形式了,那么接下来直接通过多头注意力机制多次处理,最终得到的结果是和图片中每个patch都相关的特征。就相当于替代卷积层完成了特征提取得到 z_l。 不用卷积运算,训练需要的计算资源要少很多。 ViT 如果用大量数据集进行预训练,那么效果会很好。 ViT 模型更大对比同量级state-of-the-art表现更好。 https://arxiv.org/pdf/2103.14030.pdf 不同于ViT中在输入序列中加上一个绝对的位置编码,swinTransformer使用的是相对位置偏置,加在attention内部的查询操作里。论文做了实验,如果同时使用两种方法,表现会反而下降。

基于征程5芯片的Transformer量化部署实践与经验

3月28日,智东西公开课组织的「自动驾驶新青年讲座」第16讲顺利完结。在这一讲中,地平线工具链核心开发者杨志刚以《基于征程5芯片的Transformer量化部署实践与经验》为主题进行了直播讲解。杨志刚首先介绍了Transformer发展趋势及在嵌入式智能芯片上部署的问题,之后重点讲解了以征程5为例的嵌入式智能芯片的算法开发流程,并对以SwinT为例的量化精度提升和部署性能优化做了详细解读,最后分析了如何在征程5上既快又好地部署Transformer模型。本次讲座分为主讲和Q&A两个环节,以下则是主讲回顾:大家好,我叫杨志刚,在地平线主要负责天工开物工具链的开发,比如征程2、征程3、征程5上的系列量化工具和算法工具的一些开发和验证工作。因此和我们公司内部的算法团队、编译器团队都有比较深入的接触。今天我分享的主题是《基于征程5芯片的Transformer量化部署实践与经验》,然后也会从量化和部署两个方面分析如何让Swin-Transformer在征程5上跑得既快又好。以下是本次讲座的主要内容,大概分为4个部分:1、Transformer发展趋势及在嵌入式智能芯片上部署的问题2、以征程5为例的嵌入式智能芯片的算法开发流程3、以SwinT为例的量化精度提升和部署性能优化4、如何在征程5上既快又好地部署Transformer模型01Transformer发展趋势及在嵌入式智能芯片上部署的问题第一部分是Transformer的发展趋势以及它在嵌入式智能芯片上的部署问题。最近,我估计大家都对Transformer势不可挡的趋势有所了解,它确实已经在NLP领域甚至在图像领域都起到了不可替代的作用。比如从2017年Transformer被提出来以后,因为它超强的序列建模和全局建模的能力,所以Transformer模型结构其实已经在整个智能模型结构里有着越来越重要的地位。一方面,它引领了一个大模型的潮流(当然这个潮流主要是指NLP领域),比如最近比较火的BERT、GPT等这样以Transformer为基础的模型其实在NLP领域已经起到了一些根本性的变革,还有像GPT这种模型的参数量从亿级别到千亿级别,我们能看到 Transformer的容量还有模型发展的趋势都朝着越来越大的方向发展。当然越来越大的前提是我们可以通过更大的模型去获取更高的精度,所以这个量级基本上已经从亿级别到了千亿级别、万亿级别。另外一方面,Transformer不仅在NLP领域引领了大模型的潮流,而且在图像领域也有着越来越重要的地位。我这里截的图(如图一所示)主要是它在Backbone也就是分类ImageNet上面的一个趋势图,可以看到随着它的计算量、参数量越来越大,它的正确率也会越来越高。事实上它在常见的基础任务中(比如说常见的检测、分割、跟踪等这样的任务)制作刷榜的时候,可以看到前几名里基本上已经遍地都是Transformer的影子了。所以比如常见的以Swin-Transformer为例的encoder,以DETR为例的decoder,还有时序、BEV等这种用Transformer做特征融合的,不管在图像领域的哪一个阶段,我们都可以把Transformer的特性和CNN结合,甚至替代CNN的模型结构。无论是替代CNN还是和CNN结合,这两个发展方向都已经成为视觉领域的常用做法,所以整体上来说Transformer在现在的图像领域里已经是无法绕开的模型结构了。其实我在标题里面新加了一句话“通向通用人工智能的一扇门”,当然这个话我不敢说,我也是在一些别的信息上看到的。现在基本上认为,在我们做特征提取的阶段中,Transformer是通用人工智能的一种组件,所以也被称为一扇门,不过这个不是我们今天要分享的重点。Transformer确实在模型结构上起着越来越重要的作用,但是另一方面,它在嵌入式端部署的问题也会受到越来越多的重视。具体来说,Transformer越来越大和嵌入式智能芯片部署这两个方向的出发点是有区别的,比如说Transformer模型在发展上是越做越大、越做越宽,但是嵌入式智能芯片因为受到成本、功耗等方面的限制,导致它在算力、带宽等很多功能方面受限,这就导致当前的嵌入式智能芯片不管是部署稍微大一点的还是小一点的Transformer模型,都会有一些吃力。这里我讲三个主要的例子。第一个因为嵌入式智能芯片受到成本和功耗的限制,所以它的算力、带宽、内存等方面都会受到一定的限制,这就直接导致像Transformer这样的大模型的部署会受到限制。因为如果用一个大模型去部署一个小算力的平台,就算不是Transformer哪怕只是普通的CNN,性能显而易见的可能会极差,更何况是Transformer这样的大模型在小算力平台上的部署很明显会有一些缺陷。第二个特征是目前市面上比较流行的嵌入式智能芯片通常都会以低精度的方式来处理部署的模型。当然低精度之外也会少量的去支持一定精度的浮点,这个原因和算力、带宽受限是一样的,主要还是从成本、功耗等这方面的情况考虑的,所以这就直接导致了如果想要在嵌入式智能芯片上部署的话,那么这个模型可能要经过一些量化,但同时量化不能有一定的精度损失。否则如果精度损失比较大的话,这个部署就是没有意义的。第三点是芯片的发展其实是滞后于算法的。关于这一点,在我们公司罗老师之前的分享当中(地平线罗恒博士:如何打造一颗好的自动驾驶AI芯片)有比较详细的描述,大家如果有兴趣可以去看一下。简单来说,就是芯片从设计到正式量产需要经过一个漫长的过程,这个过程可能是2-4年。因此现在市面上流行的嵌入式智能芯片基本上是源自于1-2年甚至更长时间之前的设计,而那时候设计的嵌入式智能芯片很大概率没有考虑Transformer的情况,因为那时候可能大部分市面上流行的还是以CNN为主的模型,所以这样就会造成现在大部分嵌入式智能芯片对CNN的部署非常友好,但是对Transformer的部署存在一定的gap。今天我们就要讨论这个gap到底来自哪里。下面我们详细拆解一下刚刚讲到的问题:Transformer部署过程中会遇到哪些问题?第一个是量化问题,其实Transformer的量化问题现在我们能在很多社区的论文或者一些博客当中看到。首先,它为什么要经过量化?我刚刚简单讲了一下,它是从成本、功耗等方面考虑的。如果用int8或者低比特的量化部署,它的好处是显而易见的,比如可以降低功耗、提高计算速度、减少内存和存储的占用。这里有个数据对比,Transformer部署的时候其实会有一些常见的问题,如果熟悉量化训练的同学应该比较清楚,Transformer模型当中有大量的非线性函数,比如说像GeLU、LayerNorm这样的东西。所以它激活值的输出和高斯分布会有比较大的差异,这就直接导致了很大一部分之前在CNN中最常用的对称量化的方法,可能会出现很明显的精度问题。如果要解决Transformer的量化精度问题,社区有很多常见的经验。我这里举两个例子,比如用非对称量化等方法去处理分布不均衡或高斯分布差异较大的情况,还有一些情况可能会直接在硬件上使用浮点的SoftMax或LayerNorm,这种情况肯定是可以解决量化问题的,但实际上我们需要和硬件结合,而硬件上到底能不能支持浮点或者能不能支持非对称性量化是我们需要考虑的另一个问题。我们今天要讲的征程5的平台,它就是一个纯int8的嵌入式智能平台,如果要在一个纯int8的嵌入式智能平台上去部署一个浮点的SoftMax或者LayerNorm显然是不合理的。甚至有一些情况就算它是纯int8的,可能也不支持非对称量化,所以我们如果要解决Transformer量化不友好的问题,还需要结合硬件的特点来考虑。Transformer模型部署的第二个问题是Transformer对算力的要求比较高。开始也讲到,Transformer是近年来最受关注的神经网络模型,而Transformer在机器视觉领域最重要也是最彻底的应用就是Swin Transformer,这个工作也得到了机器视觉领域最高的奖项,马尔奖。这里我们以Swin-Transformer为例。我们考虑Swin-Transformer这个最小的模型,它的计算量大概是4.5G左右。说4.5G可能很多人没有直观概念,我做了两个简单的对比,这就约等于我们常用模型里的EffcientNetB4和ResNet50。说到ResNet50,很多人就有概念了,如果我们用ResNet50的水平去做部署的话,其实市面上很多算力稍微低一点的嵌入式智能芯片部署就会有点吃力了。如果有人知道地平线的历史,比如地平线的上一代芯片跑ResNet50是可以跑的,但它的效率不是很高,而且这还是CNN的部署效率,如果在Transformer上效率会进一步降低。这样考虑的话,整个SwinT部署的前提条件就是芯片的算力达到一定的要求。除了刚才提到的SwinT的基础还有量化问题之外,还有一个比较重要的问题就是我们一直在讲的Transformer和CNN模型到底有哪些区别?为什么说我的芯片可以部署ResNet50,但是没法部署Transformer呢?其实这就是CNN模型和Transformer模型之间一个比较重要的区别。如果我们比较熟悉CNN模型,就会知道CNN基本上从头到尾只有一个卷积,或者有少量的非卷积算子,如RoiAlign。所以整个CNN模型实际上是以卷积和矩阵乘为主的。换句话说,这类算子的特征是以计算密集型算子为主。我们早期的智能芯片为什么并发能力强,因为智能芯片设计之初就是以这样的CNN模型为出发点的,它的重点是利用并发去解决计算密集型的问题。但在Transformer里情况是不一样的,Transformer里除了我们刚刚说到的卷积和矩阵乘以外,还有大量像Elementwise、Reduce这样的访存密集型算子。访存密集型算子和计算密集型会有明显的区别,会要求我的访存带宽或者访存本身的存储容量比较高,同时不规则的数据搬运比较多,不像CNN中,一个4d-tensor可以从头到尾,而且我的4d-tensor的规则可能非常明显:W/H维度做下载样,C维度做特征变长,这种4d-tensor的特征对整个嵌入式智能平台是非常友好的。但Transformer中不规则的数据搬运会明显多很多,比如像Swin-Transformer,我们做window partition和window reverse时会有很多Reshape和Transpose的操作,这种操作带来的问题是效率会进一步降低。事实上这个问题是整个Transformer或者说整个芯片行业都会遇到的一个问题,不仅是嵌入式智能芯片会有这样的问题,训练芯片也会有类似的问题。我记得早几年前英伟达在测试上做过一个OPS的简单统计,这个细节就不说了,大体上的结论是纯粹计算型的算子,比如卷积和矩阵乘这样的算子在计算量上占比大概99.8%,但实际上它在英伟达芯片(就训练芯片上而言)的执行时间只有60%。换句话说,训练芯片本身有大量的占比很低的非计算型算子,但这些算子却花费了40%的时间。这个问题在Transformer部署嵌入式智能芯片时,会被很大程度的放大。常见的嵌入式智能芯片可能会有大量的时间浪费在访存算子和不规则数据搬运上面。总结一下第一部分,就是嵌入式智能芯片由于受到成本、功耗等方面的限制,设计思路和实际上需要部署的Transformer模型之间有较大的区别。02以征程5为例的嵌入式智能芯片的算法开发流程第二部分重点讲一下嵌入式智能芯片的开发流程,这里虽然是以征程5为例,但实际上我们通过目前的调研或者就目前大部分嵌入式智能芯片总体上看,开发流程基本上是一致的,所以换句话说,大家要解决的问题基本上类似。首先简单讲一下征程5的基本情况,这在之前的系列课里有比较充分的描述,是讲征程5是怎么设计出来的,然后针对智驾平台有怎样的创新或者怎样的用处,我就不多讲了,这里我主要讲这几个基本情况是如何符合Transformer部署的前提条件的。然后这个也和我们刚才说的常见的嵌入式智能芯片部署的缺陷对应上。第一点是大算力计算平台,首先我们得有一个大算力计算平台作为前提,才有可能去部署Transformer系列模型。如果是小算力的话,刚刚也讲了,比如上一代征程3想部署Transformer可能就比较困难。第二个重点是丰富的算子支持。我们在刚才Transformer的结构图中也能看到这点为什么比较重要,CNN模型的主体是以卷积为主,配合少量其他算子,如RoiAlign等。但Transformer中其实有很多很杂的算子,比如说像LayerNorm、SoftMax,还有Reshape、Transpose等,所以说智能芯片部署Swin-Transformer或者其他Transformer的前提条件除了大算力之外,还需要非常丰富的算子知识。另外是最强的计算性能,我觉得在我们Transformer的部署中其实没有太多的参考价值,因为它是以CNN为基础的模型进行统计的,也就是以计算密集型的模型统计的,但Transformer的能力跟这个还是有比较明显的差距。最后一点是超低功耗,这点也需要多讲,因为它本身也是征程5的亮点之一。地平线的征程5和天工开物工具链,其实已经积累了一套比较完善的软件工具,这套软件工具从用户训练的浮点模型开始,然后做量化、训练、编译、部署、优化等,最终部署到嵌入式端。以量化为例,基本上整个芯片工具链会提供PTQ的后量化和QAT的量化训练这两种量化方式。在优化编译阶段,可以提供Checker、Calibrator和分析、仿真等工具,最终可以保证用户的模型经过量化、优化后,能部署到嵌入式端。这里需要说一下早期的天工开物整个工具链的积累其实是基于CNN模型的,后面我也会讲为什么基于CNN模型积累下的整个芯片工具链在处理Transformer模型时,不管是量化还是优化部署方面都有一定缺陷。下面是如何利用整个天工开物工具链帮助用户把浮点模型快速部署到嵌入式芯片上。这就是我一开始讲的,各家的芯片工具链、各家的嵌入式智能芯片的部署流程已经趋于相同了,整体上都是从算法迁移代价足够小的角度考虑,所以基本上已经是一个标准流程了。然后我们来看一下这个流程,从浮点训练开始,经过PTQ后量化的校准,如果后量化的精度满足要求我们就可以直接编译优化、最终部署;如果不满足要求可以反过来去做量化感知训练,量化感知训练的目的是使精度达到要求,并最终去做模型定义。那么如果我们要处理这种Transformer部署优化的流程,要处理的两个重点就是量化调优和编译优化,主要是利用量化公式去提升量化精度。第二个是在编译过程中,用手动或自动的方式去获取更好的部署性能。天工开物工具链首次把Swin-Transformer部署在征程5上,其实没有遇到太多困难,当然这个前提我刚刚已经讲了,首先它有大算力,然后丰富的算子知识,这两点我们在征程5上的部署过程比较简单。这里简单讲一下支持哪些算子,其实了解Swin-Transformer的人应该都了解,比如说有Reshape、roll、LayerNorm、matmul等。这里为什么需要算子完全支持?我们一开始做这个事情的时候发现 ONNX opset上面没有完全支持roll,所以当时测Swin-Transformer在其他品牌上的结果时,还需要单独处理roll的情况。最近,我们发现opset上已经支持roll了,但另一个方面说明一些嵌入式智能芯片的平台不管是由于使用的工具还是最后部署的芯片的限制,想做到算子完全支持有一定的门槛。<p class="ql-al【本文来自易车号作者车东西,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】

Transformer模型解析记录

整个Transformer模型由Encoder和Decoder两部分组成。Encoder负责对输入数据的编码,而Decoder负责对编码后的数据进行解码。 Encoder由N个结构相同,参数不共享的模块组成,每个模块又由多头自注意力层和全连接层组成,其中多头自注意力层和全连接层都加上了残差连接和layer normalization。 Decoder与Encoder结构类似,相比于Encoder,Decoder部分多了一个 Multi-Head Attention ,第一个 Multi-Head Attention 采用Masked操作,第二个 Multi-Head Attention 的 K 和 V 使用Encoder的输出,而Q使用上一个Decoder block的输出。 Decoder的输出通过一个线性层和softmax输出下一个翻译单词的概率。 Encoder由N个结构相同,参数不共享的的Layer组成(论文中N=6),也即图1左侧的单元,最左边有个“Nx”。 每个Layer由 Multi-Head Attention 和 Feed-Forward 两个sub_layer组成。其中每个sub_layer都加了残差连接(Residual Connect)和归一化(Normalization)操作。则每个sub_layer的输出可表示为: Muti-Head Attention从结构上来看就是通过h个不同的线性变换将输入 投影到h个不同的 组合,最后将h个不同的Attention结果拼接起来,最后经过一个Liner层得到Muti-Head Attention的输出。 其中, 、 Muti-Head Attention输出的维度是 关于Attention的详细介绍,可以参考之前文档: Feed Forward也称Position-wise feed-forward networks,该层主要提供非线性变换。之所以是position-wise是因为过线性层时每个位置i的变换参数是一样的。 该层比较简单,是一个两层的全连接层,第一层的激活函数为 Relu,第二层不使用激活函数,对应公式为: 问 :Attention输出之后的结果会和 相乘来进行维度变换,那这里为什么又要增加一个2层的FFN网络呢? 答 :FFN网络的加入给模型增加了非线性(Relu激活函数),增加了模型的表现能力。当然去掉FFN层也是可以的,只不过效果上会差些。 Decoder是图1的右半部分,与左半部分的Encoder类似,但又存在一些区别。 Decoder比Encoder多了一个Multi-Head Attention,第一个Multi-Head Attention采用Masked操作,因为在生成任务中,前面的词语是看不到后面词语的信息的,因此需要加入Masked来避免信息泄露。第二个Multi-Head Attention输入的 是根据Encoder的输出编码矩阵映射而来,而 是根据上一个Decoder的输出映射而来。 最后有一个 Softmax 层计算下一个翻译单词的概率。 模型在解码的过程中需要注意的是训练和预测不一样。 在训练时,解码是一次全部decode出来,用上一步的ground truth来预测(mask矩阵也会改动,让解码时看不到未来的token); 而预测时,因为没有ground truth了,需要一个个预测。 上面简单介绍了 Encoder 和 Decoder 模块,下面简单介绍一下Transformer的Position Embedding。 引入Position Embedding主要是为了弥补Transformer模型对位置信息的不足,将Position Embedding与token Embedding相加后,即可保留各个token的位置信息。 论文作者提出了两种添加位置信息的的方法: 一种方法是直接用不同频率的正余弦函数直接计算各个token的位置id,公式如下: 另一种方法是直接学习出一个Position Embedding。 通过实验发现,两种方法结果差不多,最后作者选择了第一种方法。 Transformer 与 RNN 不同,可以比较好地并行训练。 Transformer 本身是不能利用单词的顺序信息的,因此需要在输入中添加位置 Embedding,否则 Transformer 就是一个词袋模型了。 Transformer 的重点是 Self-Attention 结构,其中用到的 Q, K, V矩阵通过输出进行线性变换得到。 Transformer 中 Multi-Head Attention 中有多个 Self-Attention,可以捕获单词之间多种维度上的相关系数 attention score。 Transformer 模型详解 (推荐) 【NLP】Transformer模型原理详解 【经典精读】Transformer模型深度解读

Transformer常见问题汇总

答: 多头可以使参数矩阵形成多个子空间,矩阵整体的size不变,只是改变了每个head对应的维度大小,这样做使矩阵对多方面信息进行学习,但是计算量和单个head差不多。 答: 请求和键值初始为不同的权重是为了解决可能输入句长与输出句长不一致的问题。并且假如QK维度一致,如果不用Q,直接拿K和K点乘的话,你会发现attention score 矩阵是一个对称矩阵。因为是同样一个矩阵,都投影到了同样一个空间,所以泛化能力很差。 答: K和Q的点乘是为了得到一个attention score 矩阵,用来对V进行提纯。K和Q使用了不同的 , 来计算,可以理解为是在不同空间上的投影。正因为有了这种不同空间的投影,增加了表达能力,这样计算得到的attention score矩阵的泛化能力更高。 答: 假设 Q 和 K 的均值为0,方差为1。它们的矩阵乘积将有均值为0,方差为dk,因此使用dk的平方根被用于缩放,因为,Q 和 K 的矩阵乘积的均值本应该为 0,方差本应该为1,这样可以获得更平缓的softmax。当维度很大时,点积结果会很大,会导致softmax的梯度很小。为了减轻这个影响,对点积进行缩放。 参考链接: https://blog.csdn.net/tailonh/article/details/120544719 答: 对需要mask的位置设为负无穷,再对attention score进行相加 答: 将原有的高维空间转化为多个低维空间并再最后进行拼接,形成同样维度的输出,借此丰富特性信息,降低了计算量 答: 输入嵌入-加上位置编码-多个编码器层(每个编码器层包含全连接层,多头注意力层和点式前馈网络层(包含激活函数层)) 答: embedding matrix的初始化方式是xavier init,这种方式的方差是1/embedding size,因此乘以embedding size的开方使得embedding matrix的方差是1,在这个scale下可能更有利于embedding matrix的收敛。 答: 因为self-attention是位置无关的,无论句子的顺序是什么样的,通过self-attention计算的token的hidden embedding都是一样的,这显然不符合人类的思维。因此要有一个办法能够在模型中表达出一个token的位置信息,transformer使用了固定的positional encoding来表示token在句子中的绝对位置信息。 答: 相对位置编码(RPE)1.在计算attention score和weighted value时各加入一个可训练的表示相对位置的参数。2.在生成多头注意力时,把对key来说将绝对位置转换为相对query的位置3.复数域函数,已知一个词在某个位置的词向量表示,可以计算出它在任何位置的词向量表示。前两个方法是词向量+位置编码,属于亡羊补牢,复数域是生成词向量的时候即生成对应的位置信息。 答: encoder和decoder的self-attention层和ffn层都有残差连接。反向传播的时候不会造成梯度消失。 答: 多头注意力层和激活函数层之间。CV使用BN是认为channel维度的信息对cv方面有重要意义,如果对channel维度也归一化会造成不同通道信息一定的损失。而同理nlp领域认为句子长度不一致,并且各个batch的信息没什么关系,因此只考虑句子内信息的归一化,也就是LN。 答: 批归一化是对每一批的数据在进入激活函数前进行归一化,可以提高收敛速度,防止过拟合,防止梯度消失,增加网络对数据的敏感度。 答: 输入嵌入-加上位置编码-多个编码器层(每个编码器层包含全连接层,多头注意力层和点式前馈网络层(包含激活函数层))-多个解码器层(每个编码器层包含全连接层,多头注意力层和点式前馈网络层)-全连接层,使用了relu激活函数 答: 通过转置encoder_ouput的seq_len维与depth维,进行矩阵两次乘法,即q*kT*v输出即可得到target_len维度的输出 答: Decoder有两层mha,encoder有一层mha,Decoder的第二层mha是为了转化输入与输出句长,Decoder的请求q与键k和数值v的倒数第二个维度可以不一样,但是encoder的qkv维度一样。 答: Transformer的并行化主要体现在self-attention模块,在Encoder端Transformer可以并行处理整个序列,并得到整个输入序列经过Encoder端的输出,但是rnn只能从前到后的执行 答: 训练的时候可以,但是交互的时候不可以 答: 传统词表示方法无法很好的处理未知或罕见的词汇(OOV问题) 传统词tokenization方法不利于模型学习词缀之间的关系” BPE(字节对编码)或二元编码是一种简单的数据压缩形式,其中最常见的一对连续字节数据被替换为该数据中不存在的字节。后期使用时需要一个替换表来重建原始数据。 优点:可以有效地平衡词汇表大小和步数(编码句子所需的token次数)。 缺点:基于贪婪和确定的符号替换,不能提供带概率的多个分片结果。 答: LN是为了解决梯度消失的问题,dropout是为了解决过拟合的问题。在embedding后面加LN有利于embedding matrix的收敛。 答: BERT和transformer的目标不一致,bert是语言的预训练模型,需要充分考虑上下文的关系,而transformer主要考虑句子中第i个元素与前i-1个元素的关系。

Transformer最全解析(attention is all you need)

Transformer出自google,被广泛应用于NLP的各项任务中,在transformer基础上改进优化的BERT模型在2019年11项NLP任务中表现SOTA。 论文原文: https://arxiv.org/pdf/1706.03762.pdf 《attention is all you need》 在处理变长的序列问题时,一般的做法是利用卷积神经网络或循环神经网络。 无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”:卷积神经网络显然是基于N-gram的局部编码;而对于循环神经网络,由于梯度消失等问题也只能建立短距离依赖。 Attention可以理解为一种序列聚焦方法,基本思想是对序列分配注意力权重,把注意力集中在最相关的序列上。 Attention 机制实质上就是一个寻址过程,通过给定一个任务相关的查询 Query 向量 Q,通过计算与 Key 的注意力分布并附加在 Value 上,从而计算 Attention Value,这个过程实际上是 Attention 缓解神经网络复杂度的体现,不需要将所有的 N 个输入都输入到神经网络进行计算,而是选择一些与任务相关的信息输入神经网络,与 RNN 中的门控机制思想类似。 用X = [x_1, · · · , x_N ]表示N 个输入样本;通过线性变换得到为查询向量序列,键向量序列和值向量序列: 所谓self-attention自注意力机制,即其注意力概率分布来自网络自身的输入的变换,而传统attention的注意力概率分布来自外部。 Transformer模型中采用了 encoer-decoder 架构,论文中encoder层由6个encoder堆叠在一起,decoder层也一样。 每一层的encoder和decoder的结构如下图所示: transformer模型中缺少一种解释输入序列中单词顺序的方法,它跟序列模型还不不一样。为了处理这个问题,transformer给encoder层和decoder层的输入添加了一个额外的向量Positional Encoding,维度和embedding的维度一样,这个向量采用了一种很独特的方法来让模型学习到这个值,这个向量能决定当前词的位置,或者说在一个句子中不同的词之间的距离。这个位置向量的具体计算方法有很多种,论文中的计算方法如下: 其中pos是指当前词在句子中的位置,i是指向量中每个值的index,可以看出,在偶数位置,使用正弦编码,在奇数位置,使用余弦编码。最后把这个Positional Encoding与embedding的值相加,作为输入送到下一层。 在每个编码器中的每个子层(自注意力、前馈网络)的周围都有一个残差连接,并且都跟随着一个“层-归一化”步骤。 Normalization有很多种,但是它们都有一个共同的目的,那就是把输入转化成均值为0方差为1的数据。我们在把数据送入激活函数之前进行normalization(归一化),因为我们不希望输入数据落在激活函数的饱和区。 mask 表示掩码,它对某些值进行掩盖,使其在参数更新时不产生效果。Transformer 模型里面涉及两种 mask,分别是 padding mask 和 sequence mask。其中,padding mask 在所有的 scaled dot-product attention 里面都需要用到,而 sequence mask 只有在 decoder 的 self-attention 里面用到。 原论文中说到进行Multi-head Attention的原因是将模型分为多个头,形成多个子空间,可以让模型去关注不同方面的信息,最后再将各个方面的信息综合起来。其实直观上也可以想到,如果自己设计这样的一个模型,必然也不会只做一次attention,多次attention综合的结果至少能够起到增强模型的作用,也可以类比CNN中同时使用 多个卷积核 的作用,直观上讲,多头的注意力 有助于网络捕捉到更丰富的特征/信息 。 seq2seq缺点 :这里用代替这个词略显不妥当,seq2seq虽已老,但始终还是有其用武之地,seq2seq最大的问题在于 将Encoder端的所有信息压缩到一个固定长度的向量中 ,并将其作为Decoder端首个隐藏状态的输入,来预测Decoder端第一个单词(token)的隐藏状态。在输入序列比较长的时候,这样做显然会损失Encoder端的很多信息,而且这样一股脑的把该固定向量送入Decoder端,Decoder端不能够关注到其想要关注的信息。 Transformer优点 :transformer不但对seq2seq模型这两点缺点有了实质性的改进(多头交互式attention模块),而且还引入了self-attention模块,让源序列和目标序列首先“自关联”起来,这样的话,源序列和目标序列自身的embedding表示所蕴含的信息更加丰富,而且后续的FFN层也增强了模型的表达能力,并且Transformer并行计算的能力是远远超过seq2seq系列的模型,因此我认为这是transformer优于seq2seq模型的地方

former是什么意思?

formerKK: []DJ: []a.[Z][B]1. 从前的,早前的,旧时的In former days there was a racecourse here.从前这儿有个赛马场。2. 在前的;(两者中)前者的When she is offered ice-cream or pie, she always chooses the former.当有冰淇淋或馅饼给她吃时,她总是挑选前者。3. 前任的;一度的The guide showed us the old home of former President Theodore Roosevelt.导游带我们看了前总统西奥多·罗斯福的故居。

Transformers Theme 歌词

歌曲:Transformers Theme歌手:Black Lab专辑:《Technologie》发行时间:2007年06月01日Something evil"s watching over you 某个时刻 邪恶已经笼罩你Comin" from the sky above 在你头顶的天空降临And there"s nothing you can do 你却无能为力Prepare to strike 惟有准备战斗There"ll be no place to run 没有地方逃避When your caught within the grip 除非你被捕获Of the evil Unicron 被那邪恶的宇宙大帝Transformers 变形金刚More than meets the eye 超越视觉Transformers 变形金刚Robots in Disguise 超凡的机械体Strong enough to break the bravest heart 敌人如此强大 足以击溃最勇敢的心So we have to pull together 因此我们必须团结一致——一起We can"t stay worlds apart 我们无法生存在破碎的宇宙里To stand divided we will surely fall 分裂必然导致灭亡Until our darkest hour 直到光明降临When the light will save us all 照亮我们最黑暗的世纪Transformers 变形金刚More than meets the eye 超越视觉Transformers 变形金刚Robots in Disguise 超凡的机械体Transformers 变形金刚Autobots wage their Battle 汽车人为之奋战To destroy the evil forces Of the打击邪恶势力的——Decepticons 霸天虎Transformers 变形金刚It"s judgment day and now we"ve made our stand 面对末日审判,我们表明立场And now the powers of darkness 现在黑暗的势力Have been driven from our land 已被赶出故土家园The battle"s over but the war has just begun 一场战斗结束了 但整个战争才刚刚开始And this way it will remain 命运就是这样的方式 并且没有止息till the day when all are one 直到实现那一天,当所有的一切,万众一心……Transformers 变形金刚More than meets the eye 超越视觉Transformers 变形金刚Robots in Disguise 超凡的机械体Transformers 变形金刚Autobots wage their Battle 汽车人为之奋战To destroy the evil forces Of the打击邪恶势力的——Decepticons 霸天虎Transformers 变形金刚

transferformer 是什么意思??

动画片 《变形金刚》

transformer是什么意思

变压器

transformer是什么意思

变压器;促使变化的(或人物),改革者望采纳

"transformers"为什么翻译成"变形金刚"?

因为transform 是”变形”的意思,所以transformers就翻译成"变形金刚"了.

Transformers 歌词

歌曲名:Transformers歌手:Warren G专辑:Take A Look Over Your Shoulder (Reality)Chris Brown Ft. Lil Wayne & Swizz Beatz - Transformer-----MaxRNB - Your First R&B Source!-----Hey Lil Mama,I can transform ya,No i can"t dance but I can dance on ya,Swiss on the beats, Chris move ya feet,And baby I can transform ya him to a me,I can change you life, make it so new,Make you never want to go back to the old you,Ciroc and lime, give it a lil time,And she can transform like Optimus Prime,Need a ride I can Range you up,Money i can change you up,You can ride your own, no longer be the passenger,Swag low I build you up,Knees we can stand you up,Red lips, red dress, like em like a fire truck,What you need, you can have that,My black card they won"t decline that,See potential in ya,Let me mould that,I can transform ya,I can transform ya,I can transform ya,I can transform ya,Anything ya want, i can get it for ya,Your my baby girl shoulda know I did it for ya,I can trans, I can trans, I can transform ya,Shoes you got it (got it)Bags you got it (got it),Cars you got it (got it),Money still got it (got it),I can transform ya, I can transform ya,Anything you want I can (i can) get it for ya,See me in the video you can have it really though,Iced out everything, like an eskimo,Wanna fly, we can go, anywhere you wanna go,Jimmy Choos in Italy, Louie V in Tokyo,Something like Pinnochio,If you lie down imma grow,Wanna see me do it big,I can show you how it goes,Take you from an amateur to being professional,(I can have you swag surfing – autotune)What you need, you can have that,My black cardThey don"t declaim thatSee potential in ya,Let me mould that,I can transform ya,I can transform ya,I can transform ya,I can transform ya,Anything ya want, i can get it for ya,Your my baby girl shoulda know I did it for ya,I can trans, I can trans, I can transform ya,Shoes you got it (got it)Bags you got it (got it),Cars you got it (got it),Money still got it (got it),I can transform ya, I can transform ya,Anything you want I can (i can) get it for ya,Ok,I can transform ya like a transformer,I can turn you from a human to a Carter,Take you off the bench and turn ya to a starter,Then take you home and put you on a charger,Then (then) my cars transforms to a charter,And we can fly to wherever you ever thought of,Hehe, i take you to wherever its warmer,Then i gotta rip off your dress like a warm up,Hehe, but Im just getting warmed up,So tell your man he better get his voltron up,I transform her to a Ducati and then I transform me to a Bugatti,Cos her form puts me in a trance,I transform smaller and she puts me in her pants,Swiss on the Beat, Chris move ya feetAnd we can transform a good girl to a freak,I can transform ya,I can transform ya,Anything ya want, i can get it for ya,Your my baby girl shoulda know I did it for ya,I can trans, I can trans, I can transform ya,Shoes you got it (got it)Bags you got it (got it),Cars you got it (got it),Money still got it (got it),I can transform ya, I can transform ya,Anything you want I can (i can) get it for ya,-----MaxRNB - Your First R&B Source!-----http://music.baidu.com/song/8113065

为什么变形金刚是transformers

transform在英文中是变形,变换形状的意思在后面加上er就是指能变形的人,变形者。再加s表示复数。中国引进时取名变形金刚,体现了这些机器人的威猛与变形的特点

TRANSFORMERS(变形金刚)简介

When the father of the teenager Sam Witwicky gives an old Camaro to him, he has a chance to give a ride to his schoolmate Mikaela Banes and participate of an ancient war of robots on planet Earth. His car is actually the Autobot Bumblebee, leaded by Optimus Prime, and they are in war against the evil Deceptions, leaded by Megatron. Both races are seeking the cube Allspark with opposite intentions: the Autobots intend to protect the human beings, while the Deceptions want to destroy them.另一个版本:When teenager Sam Witwicky buys his first car, what he doesn"t know, is that it"s actually an alien robot. This isn"t the only alien to arrive on Earth. Optimus Prime and a fellow group of transforming robots have arrived in search of the AllSpark. But, Optimus Prime and his Autobots aren"t the only aliens to appear. Megatron and the Decepticons are also searching for the AllSpark, and it would do anything to get it, even if it means destroying the city.第三个版本:A long time ago, far away on the planet of Cybertron, a war was being waged between the noble Autobots (led by the wise Optimus Prime) and the devious Decepticons (commanded by the dreaded Megatron) for control over the Allspark, a mystical talisman that would grant unlimited power to whoever possessed it. The Autobots managed to smuggle the Allspark off the planet, but Megatron blasted off in search of it. He eventually tracked it to the planet of Earth (circa 1850), but his reckless desire for power sent him right into the Arctic Ocean, and the sheer cold forced him into a paralyzed state. His body was later found by Captain Archibald Witwicky, and before going into a comatose state Megatron used the last of his energy to engrave a map, showing the location of the Allspark, into the Captain"s glasses, and send a transmission to Cybertron. He is then carted away by the Captain"s ship. A century later, Sam Witwicky, nicknamed Spike by his friends, buys his first car. To his shock, he discovers it to be Bumblebee, an Autobot in disguise who is to protect Spike, as he bears the Captain"s glasses and the map carved on them. But Bumblebee is not the only Transformer to have arrived on Earth - in the desert of Qatar, the Decepticons Blackout and Scorponok attack a U.S. military base, causing the Pentagon to send their special Sector Seven agents to capture all "specimens of this alien race," and Spike and his girlfriend Mikaela find themselves in the middle of a grand battle between the Autobots and the Decepticons, stretching from Hoover Dam all the way to Los Angeles. Meanwhile, within the depths of Hoover Dam, the cryogenically stored form of Megatron awakens更多请看这里:http://www.imdb.com/title/tt0418279/plotsummary

transformer中文翻译

A step-down transformer has a turns ratio less than 1 . 降压变压器的匝数比小于1。 A pnear differential transformer has three coils . 一个直线差动变压器有三个线圈。 The magic cores of transformers and other apparatus are laminated . 把变压器及其它仪器的磁心分层。 The transformer isolates the transistors with regard to d-c bias voltage . 变压器可在两个晶体管之间隔离直流偏压。 The process by which the transformer is enabled to draw the requisite amount of power is as follows . 使变压器能够从电源输入必要数量的功率的过程如下。 It is difficult to produce a very high voltage directly, by a bination of transformer and rectifier . 用变压器和整流器相配合直接得到很高的电压是困难的。 Fig. 9 shows schematically the apppcation of a differential transformer to measurement of pquid column height . 应用差动变压器测定液柱高度大致如图9所示。 The transformer substation survived the blast with relatively minor damage to the essential ponents . 经爆震波袭击后未被毁坏的变电站的重要组件受到较小的损坏。 Several distributor transformers had fallen from the poles, and secondary wires and service drops were down . 几个配电变压器从电线杆上摔下来,副线及吊饰也垂下来。 Only transformer couppng can contribute to the voltage gain of an amppfier by virtue of a stepup turns ratio . 只有放大器耦合方能通过开压匝数比提高变压器电压增益。 The differential transformer secondary windings are connected in subtractive series so that the output is zero at balance . 差功变压器的次级线圈接成反向串联,以便在平衡时输出为零。 Verification regulation of transformers turn ratio test sets 变压比电桥检定规程 Specification for flameproof transformers for use in mines 矿山用防火变压器规范 66kv double windings , on - load tap - changing transformer 66kv双绕组有载调压变压器 Instrument transformers - electronic current transformers 仪表变压器.电流变压器 Field testing of relaying current transformers 继电器用的电流变压器现场测试指南 Multi - channel dc dc converters inductors transformers 磁性元件- *** t电感器变压器 Transformer design keep pace with dc dc converter technology 转换器技术同步发展 Design of pulse transformer for 10kv igbt sopd switch 固体开关的脉冲变压器设计 Verification regulation of instrument transformer test set 互感器校验仪检定规程 Transformers , distribution , dry - type over 600 volts 干式600v以上变压器配电系统 Oil - immersed transformer series pad - mounted transformer series 油浸式变压器系列 Technology parameter of scb10 10kv power transformer Scb10系列10kv级电力变压器 With cigar pghter device and transformer of any car 可配置汽车点烟器及变压器。 A step - down transformer has a turns ratio less than 1 降压变压器的匝数比小于1 。 Terminal markings for power transformers and reactors 变压器和电抗器的端子标记 Transformers ; oil trap dn 25 ; requirements and test 变压器.集油槽dn25 .要求和试验 Occurs when transformer configuration is not pleted 转换器配置未完成时发生。 Welding transformers for portable spot welding machines 便携式点焊机用焊接变压器 Research on regeneration technology for transformer oil 变压器油再生技术的研究 110kv three windings , on - load tap - changing transformer 110kv三绕组有载调压变压器 Dry type transformer series with non - enveloped windings 非包封线圈干式变压器系列 Transformer cabis custom design available 变压器柜根据用户要求配置相应设备 Dry type transformer series with non - enveloped windings 非包封线圈干式变压器系列 When a transformer is needed as part of a connection , the 当连接中需要转换器时, 220kv three windings , on - load tap - changing transformer 220kv三绕组有载调压变压器 Guide for loading mineral - oil - immersed transformers 矿物油浸式变压器的加载指南 Corrosion - proof and oil - immersed type power transformer 防腐蚀型油浸式电力变压器 Low voice of high class wreath type power transformer 高级低噪声环型功率变压器 66kv double windings , off - load tap - changing transformer 66kv双绕组无载调压变压器 Guide for loading mineral - oil - immersed transformers 矿物油浸式变压器的加载指南 Technology parameter of scb10 35kv power transformer Scb10系列35kv级电力变压器 Safety requirements for portable arc welding transformers 小型弧焊变压器安全要求 Instrument transformers - inductive voltage transformers 仪表变压器.感应变压器 500kv three windings , on - load tap - changing transformer 500kv三绕组无载调压变压器 Used in power - transfer transformer and choke coils 转换电源用变压器和扼流圈。 Use the transformer with the controller 912v ac用随机配置的变压器,初级电压220v

Mold transformer是什么

变压器

变压器 设立关键词 要设哪些关键词?power transformer 还有些什么?

选择网站关键词时要根据网站发展目标(网站是做品牌还是追求即时成单率,公司主要销售区域及目标开发市场区域)、自己产品优势及行业普遍情况(竞争对手情况)、网友搜索习惯、相关关键词热度综合决定,关键词不能太热门也不能太冷门,太热门的关键词竞争者多,往往还有许多竞价排名企业,很难做上去,太冷门的关键词做上去没有人搜索,不符合网友搜索习惯的关键词做上去往往也只是“看上去很美”,起不到应有的效果。比如朋友的变压器网站,如果是某一品牌或某几种变压器的全国总代理的话,那么网站关键词就应该设立为“X品牌变压器”、“Y品牌变压器”,如果主要针对某个省(比如云南省——经营各种变压器,那么网站关键词可以设置为“云南变压器”、“昆明变压器”、“云南变压器销售”、“云南变压器大全”等等。并且,除了网站关键词设立之外,每个网页都要设置单独的关键词,另外建议朋友再仔细研究流量统计(如CNZZ),并结合本行业销售情况与网友搜索习惯,并根据企业自身情况,对一些企业有竞争力的产品上做好“长尾关键词”(如“云南变压器哪里买”、“云南变压器价格”)设置工作,并根据这些“长尾关键词”组织文章,设置锚文本内链,并有针对性地加强这些“长尾关键词”的锚文本外链工作,这样就能较好地解决将一些自己企业网站关键词做不上去的问题,并可以有效提升网站权重。但必须提醒朋友的是,关键词排名还要靠内容为王,朋友你的网站必须有更多与关键词息息相关的原创内容才行,只有网站有了更多的原创内容(注意网站内链建设尤其是锚文本内链的建设)之后,必须考虑网站外链(锚文本外链)的的规律性建设,整个网站的搜索引擎权重才可能不断提升,网站的关键词排名才可能做上去,而且做上去之后不容易下滑太快。

Steve jobs,____former CEOof apples ,started with his friend Wozniak in a garage in ____late 1970s.

你好:Stevejobs,_the___formerCEOofapples,startedwithhisfriendWozniakinagaragein_the___late1970s.第一个空处是特指某一个人(史蒂夫.乔布斯)需要加定冠词以示区分第二个空处考的是具体的某一个年代同样要加定冠词这里也可以理解为特指某一个年代

former的汉语是什么意思

模型,创造者,前任的,前面的

the shock of losing my purse____me of all my former absent-mindedness.

D.根据意思来看。这里是说丢掉钱包的打击使我不再那么心不在焉。
 首页 上一页  1 2