第126章 飘洋过海的邮件
集中在lh文本摘要准确度衡量模型的构建上。
林灰记得当时他关于这个模型构建已经阐述的够清楚的了。
构建模型的话首先要运用语言模型来评估算法生成语言的流畅度,然后使用相似度模型评估文本和摘要之间的语义相关性,最后为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。
虽然为了避免教会徒弟饿死师傅,林灰在这几个步骤之间故意遗漏了一些琐屑的步骤。
不过这种东西对于科研工作者来说,就像堑壕之于坦克。
虽然会有一些影响,但问题应该不大。
真的把所有的技术细节全部公布出来。
那也不能叫做公布技术路线了,那叫编教科书。
对于林灰提到的“运用语言模型来评估算法生成语言的流畅度”
伊芙·卡莉比较困惑林灰是怎么搞定语言模型训练的语料库的?
这个问题往后几年的话还真不是问题。
因为现成的语料库就一大堆。
仅仅是简体中文方面的语料库就有国家语委现代汉语语料库、京大语料库、语料库语言学在线等若干资源。
不过换到现在这个时空节点林灰显然不能跟别人研究人员说他用的是现成的预料库。
毕竟一些现成的语料库基本都是16年左右才问世的。
尽管如此,如何解释语料库来源的问题难不倒林灰。
事实上即便没有现成的语料库,想要构建一个可堪一用的能调/教出早期生成式摘要算法的语料库也不是太复杂。
最简单的方式——借助互联网可以自动构建文本语料库。
当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。
而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。
从每个网站中筛选出用户所需要的文本作为候选语料。
这个过程其实不复杂,有点类似于爬虫抓取网页的过程。