笔趣阁 www.biquge34.net,武侠之父无错无删减全文免费阅读!
不是别的,正是先前英喆在第二篇博文《人造金梁之二:谈谈邓海老师》中,所用到的“文本鉴别学”和“司法语言学”。
正是在那篇博文中,英喆利用这两门新兴学科,通过抽样十个常用副词、介词分析邓海年轻时的习作手稿、《射雕英雄传》、邓铮高中三篇作文,最后得出结论“邓海手稿跟《射雕》的文本相似度,比邓铮高二作文跟《射雕》的文本相似度高”,从而把邓海给深深拖进了这个漩涡里,也给邓铮造成了很大的舆论麻烦!可以说直接促成了今天这次面对面的考核论证!
“……就在上周,传媒大学有位我本人非常欣赏的邹翁院长,在接受媒体采访时说,所谓‘代笔’、‘人造’,这是‘任何作家都无法证明清楚的东西’,‘如果这个事情可以成立的话,那这就意味着,全国上下只要看哪个作家不顺眼,然后就可以说,你的文章不是你写的,那这个作家就百口莫辩。作家这个行业很特殊,因为他们都是在家里写,对于一个作家来说,这种质疑成立的话,那这个作家就不用混了,我觉得他就直接完蛋了,他的职业生涯就不用继续了。’”
“以上这是邹院长原话。也不是没有道理,但未免有点危言耸听。文本的作者身份,真的没有办法证明吗?当然不是。”
“近些年来国际上有一个方兴未艾的新兴学科,叫‘司法语言学’。司法语言学家的主要工作之一,就是通过语言分析、文本鉴别,确定文本的作者身份。我先结合相关文献论文,做个简单介绍:语言学家解决作者归属问题的理论出发点是,在操同一种语言的庞大人群中,每一个个体的言说和写作,都有其独一无二的特点。每一个人都有自己多年建立起来的一个常用词汇集合,或者叫常用词表。这个词表,与其他人所建立起来的常用词表可加以区分。这种区分,不仅表现为每个人的词表所包含的词语项不相一致,还表现为每个人对不同词语项有着不同的偏好。”
“打个简单的比方,我们楼下小区超市里的货物不下几万种,理论上我们都是可以随便选购的,但我们经常买的,充其量也就不满一百种。这每一种选择,都是出于我们的偏好和习惯,体现了一定的个性。单一的‘选择’,譬如有人每个月都会买鸟窝咖啡,区分度不是很大,因为有不少人也会有同样的‘选择’。可是,如果多个‘选择’形成一个集合,那么区分度就会很大,甚至是独一无二的。譬如经常买‘鸟窝咖啡+蜀中榨菜+白人牙膏+波多红酒+恐龙峡猕猴桃+皇家狗粮’的,整个超市记录里,恐怕就只有一个家庭。”
“因此,虽然从理论上讲,任意书写者在任意时间可以使用任意的词语,但在实际上会有典型性的个人化的喜好拣择。这意味着应该有可能设计出一种‘语言指纹’的识别方法,换句话说,特定书写者在语言上所形成的印象是可以用来进行身份辨认的,就像个人签名一样。”
“当然,我们也应注意‘语言指纹’与‘生理指纹’之间的重要不同。‘生理指纹’的价值在于,每个样品都是可以通过比对进行同一认定的,也是穷尽性的,也就是说,包含了对于个体身份进行同一认定所需要的所有信息。相比之下,语言样本,即使是很大的语言样本,也只能提供相关个人语言特点的非常局部的信息。所以我们目前还不可能建立一个‘语言指纹库’,并在此基础上对争议文本进行比对检测。虽说如此,但‘语言指纹’的识别方法也不是全无作为,因为实际案例中常常有一些线索,可以将所要比对的文本样本局限在几个人,尤其是两人之间直接比对效果更佳,从而大大地简化了问题。实践中有很多通过‘语言指纹’对作者身份做出同一认定的著名案例。”
“下面,有请我国著名司法语言学家朱高峰教授和他的团队!”(未完待续……)
章377杀手锏:
不是别的,正是先前英喆在第二篇博文《人造金梁之二:谈谈邓海老师》中,所用到的“文本鉴别学”和“司法语言学”。
正是在那篇博文中,英喆利用这两门新兴学科,通过抽样十个常用副词、介词分析邓海年轻时的习作手稿、《射雕英雄传》、邓铮高中三篇作文,最后得出结论“邓海手稿跟《射雕》的文本相似度,比邓铮高二作文跟《射雕》的文本相似度高”,从而把邓海给深深拖进了这个漩涡里,也给邓铮造成了很大的舆论麻烦!可以说直接促成了今天这次面对面的考核论证!
“……就在上周,传媒大学有位我本人非常欣赏的邹翁院长,在接受媒体采访时说,所谓‘代笔’、‘人造’,这是‘任何作家都无法证明清楚的东西’,‘如果这个事情可以成立的话,那这就意味着,全国上下只要看哪个作家不顺眼,然后就可以说,你的文章不是你写的,那这个作家就百口莫辩。作家这个行业很特殊,因为他们都是在家里写,对于一个作家来说,这种质疑成立的话,那这个作家就不用混了,我觉得他就直接完蛋了,他的职业生涯就不用继续了。’”
“以上这是邹院长原话。也不是没有道理,但未免有点危言耸听。文本的作者身份,真的没有办法证明吗?当然不是。”
“近些年来国际上有一个方兴未艾的新兴学科,叫‘司法语言学’。司法语言学家的主要工作之一,就是通过语言分析、文本鉴别,确定文本的作者身份。我先结合相关文献论文,做个简单介绍:语言学家解决作者归属问题的理论出发点是,在操同一种语言的庞大人群中,每一个个体的言说和写作,都有其独一无二的特点。每一个人都有自己多年建立起来的一个常用词汇集合,或者叫常用词表。这个词表,与其他人所建立起来的常用词表可加以区分。这种区分,不仅表现为每个人的词表所包含的词语项不相一致,还表现为每个人对不同词语项有着不同的偏好。”
“打个简单的比方,我们楼下小区超市里的货物不下几万种,理论上我们都是可以随便选购的,但我们经常买的,充其量也就不满一百种。这每一种选择,都是出于我们的偏好和习惯,体现了一定的个性。单一的‘选择’,譬如有人每个月都会买鸟窝咖啡,区分度不是很大,因为有不少人也会有同样的‘选择’。可是,如果多个‘选择’形成一个集合,那么区分度就会很大,甚至是独一无二的。譬如经常买‘鸟窝咖啡+蜀中榨菜+白人牙膏+波多红酒+恐龙峡猕猴桃+皇家狗粮’的,整个超市记录里,恐怕就只有一个家庭。”
“因此,虽然从理论上讲,任意书写者在任意时间可以使用任意的词语,但在实际上会有典型性的个人化的喜好拣择。这意味着应该有可能设计出一种‘语言指纹’的识别方法,换句话说,特定书写者在语言上所形成的印象是可以用来进行身份辨认的,就像个人签名一样。”
“当然,我们也应注意‘语言指纹’与‘生理指纹’之间的重要不同。‘生理指纹’的价值在于,每个样品都是可以通过比对进行同一认定的,也是穷尽性的,也就是说,包含了对于个体身份进行同一认定所需要的所有信息。相比之下,语言样本,即使是很大的语言样本,也只能提供相关个人语言特点的非常局部的信息。所以我们目前还不可能建立一个‘语言指纹库’,并在此基础上对争议文本进行比对检测。虽说如此,但‘语言指纹’的识别方法也不是全无作为,因为实际案例中常常有一些线索,可以将所要比对的文本样本局限在几个人,尤其是两人之间直接比对效果更佳,从而大大地简化了问题。实践中有很多通过‘语言指纹’对作者身份做出同一认定的著名案例。”
“下面,有请我国著名司法语言学家朱高峰教授和他的团队!”(未完待续……)
章377杀手锏: