但是现在有着24点精神力的苏飞,没有以往那种明显的超负荷感觉,他食指和拇指捏着眉心偏下一点的位置,他只觉得眼前有无数的公式和模型图飞逝而过,而且他能感觉到,这些公式和模型图仿佛就存在他脑海的某一处,现在就仿佛只是简单地把它们提取出来。
“奇怪的感觉……但还真不错。”
就像是化作了一个小光人被抽离出这个世界,去了另一个满是知识的世界一样……
简单来说,在那一刹那,苏飞变成了光。
“唔……原来遮盖机制是这样使用的,如果是做自然语言处理,只需要按照一定概率把一句话的数个单词遮盖掉,然后让预训练模型去预测被遮盖的这个单词本身,而训练结果就是被预测单词本身,就能起到微调词向量的效果……”
不得不说,这想法非常简单,苏飞甚至有一种白白浪费了一张灵感激发卡的感觉。
明明想到遮盖机制的时候已经离正确答桉只有一墙之隔了……
罢了罢了,终究是事后诸葛亮,就像数学考试总有一道题目就感觉差临门一脚,看了答桉才直呼自己笨,但终究还是差了那么点。
苏飞在消化了这股庞大的信息流后,他的意识逐渐回到了自己身体上。
看着桌子前的台灯和纸笔,苏飞突然感觉有点陌生,之前心念一动就有无数公式浮上心头,意识中都已经把模型结构图和公式证明全部完成了,现实中还得手写……
苏飞在小本本空白的位置上,一字一顿地写上新论文的标题名bidirecoder representations rom transormers】。
意为来源于变形金刚的双向编码器向量表示。
这个论文的标题和elmo的标题书写方式是一样的,只不过elmo是致敬了taglm,但这篇新论文纯属是自己致敬自己了。
现在变形金刚爆火,自己蹭自己的热度嘛,不丢人,何况,未来到底哪篇蹭哪篇还真不一定。
毕竟预训练模型的效果一般都是高于单一模型的。
当然,苏飞还有一个小小的恶趣味,这篇新论文的每个英文单词的第一个拼在一起就是这个预训练模型的名字——bert。
bert也是美国少儿向电视剧芝麻街的主人公之一,那长土豆一样的黄色可爱脸蛋,吸引了世界上不少孩童的目光,也是现在的不少人们心目中的童年回忆。
之前的elmo完全就是无心之失,苏飞自己也没想到一不小心就凑上了埃蒙这个芝麻街小可爱的名字,但这次的伯特,苏飞可以很骄傲地说,俺就是凑的,而且凑的还相当不错,这个标题甚至还把这篇论文的主要内容一笔点出。
值得苏飞有些担忧的是,芝麻街中还有一个叫恩尼的小可爱,不少人怀疑它和伯特是同性恋,到时候不会真有人也硬凑了个恩尼的模型名字吧……
苏飞写写改改,把bert的大致思路和内容都记载在了这个小本本上,只要在回校之后做个模型,跑个实验,这篇新论文就搞定了。
老实说,这篇论文其实主要还是借鉴了变形金刚的工作,所以对于苏飞来说,这篇论文的构思比之前的两篇都要简单很多。
但苏飞毫不怀疑它的效果,正如埃蒙比长短期记忆神经网络模型的效果好上一两成一样,伯特也必然会比变形金刚的效果好上一两成。
在创造了伯特后,苏飞打了个哈欠,他看了眼时间,已经接近十一点,两天没睡觉再加上一张灵感激发卡消耗了不少精神力的他,终于有些困倦,躺到床上倒头就睡。
…
…
等到第二日日上三竿的时候,苏飞才悠悠然起床,手机上收到了好几个vx未接电话还有王正和姜大校花两人的留言。
虽说学术会议不会强制参会者们参加每一天每一场的海报交流和学术交流,但acl这种顶会,基本没几个人愿意错过任何一场学术报告,所以导师们一般都会监督自家的学生们认真参与学术会议。
学霸从谈恋爱开始提示您:看后求收藏(百发小说网http://www.baifabohui.com),接着再看更方便。