天天小说网

第064章 用科学方法解读红楼梦

第六组和第七组出现波峰的时候,其他组却出现了波谷;

而在42(不过)、61(姊妹)等词汇,当第六组和第七组出现波谷的时候,其他组却出现了波峰;这就说明第六组和第七组的折线图与其他组的折线图有明显的相反的走势……】

弹幕疯狂抗议:

“求你了别说了,听不懂啊,能直接告诉我结论么?”

“你让数学常年不及格的我,如何理解你的高深莫测?”

“直接说结论吧,真听不懂!”

……

【从部分高频词汇角度分析,前八十回和后四十回词频有较显著的差异性,于是我得出初步结论,前八十回和后四十回,作者并不是同一个人。

try{mad1();} catch(ex){}

完成了高频词汇的分析后,下面,我们对虚字进行分析。

虚字,是指不能单独成句,意义比较抽象,而具有一定语法意义的字或词。古典小说中的虚字是构成句子必不可少的成分,其使用不受故事情节的制约,仅与作者的写作习惯有关。

……

我们对44个虚字作为研究对象,44个虚字如下:之、其、或、亦、方、于……偏、儿。

在研究之前,首先我对监督学习作简单介绍,监督学习分为回归分析与分类分析两大类别,本文应用了分类分析。所谓分类是通过分析已知数据,构造一个分类函数或者分类模型(即分类器),利用该模型将数据库中数据映射到某一给定类别中……

接下来,我将运用监督学习中的朴素贝叶斯法和BP神经网络对红楼梦各回作分类研究,并根据分类准确度分析前八十回和后四十回的差异性!】

富旦大学。

张教授身边,人越聚越多。

“他说的这是啥啊?”

“我怎么全程都听不懂?”

“什么是朴素贝叶斯法?是数学么?”

“BP神经网络啥意思?生物学?还是计算机?”

“这确定是,在考证《红楼梦》后四十回是伪作么?”

“张教授,你能看懂他说的是啥么?”

“张教授?”

在场的所有教授都傻了,全都看不懂啊。

什么朴素贝叶斯法,什么BP神经网络,又什么折线图啊,这些文学方面的大教授们,哪懂这些?

用数学、计算机技术等,去研究文史问题,他们闻所未闻啊。

虽然这样的研究在前世已经是常规手段,但是这一世的人们哪见过这个?

对于这一世的所有网友来说,对于这些大教授来说,现在已经不是震不震惊的问题了,也不是吐不吐槽的问题了。而是,完全看不懂的问题!

完全看不懂啊!

想吐槽几句,想骂几句,都不知道从何开口!

张教授傻了。

视频里讲解的内容,他听不懂,傻了!

江小白就是三无的这个真相,他更接受不了,更傻了!

他一时间怔在原地,他的认知上,从来都没受到过如此重大的冲击。

……

“卧槽,他怎么还列上数学式子了呢?”

众教授连忙再次望向手机屏幕!

【设有m个输入变量x={X?,X?,…,Xm},有n个可能取值分类型变量y={y?,y?,…,yn},则根据贝叶斯定理有:P(y=y0|x?,x?,…,Xm)=P(x?,x?,…,Xm……

根据最大后验概率原则,输出变量应预测n个后验概率中最大的概率值对应的类别。

……

首先将前八十回标记为类别1,将后四十回标记为类别2,进行朴素贝叶斯分类估计。

……

由表可知,准确率最小值为0.76000,而最大准确率达1(对测试集分类百分之百正确),平均准确率为0.91609。

假定两种分类方式的准确率总体服从正态分布,因为样本量为1000,属于大样本检验,因此采用z检验。建立假设并进行检验:

H0:μ1-μ2≤0

H1:μ1-μ2>0

……

其中,xˉ1=0.91609,xˉ2=0.61587,s21=0.00192,s22=0.00746……

既然p是极显著大于p2的,那么就说明前八十回与后四十回的分类方式相比于任意一般的分类方式而言,类别之间的差异性更明显,即前八十回和后四十回文本特征存在显著的差异。

也就是说,从虚字角度分析,前八十回和后四十回,也不是同一作者的手笔。

因此,无论是从高频词汇分析,还是从虚字分析,通过科学方法研究后,我得出以下结论:《红楼梦》前80回,和后四十回,并不是出自同一人之手。】

弹幕上终于松了一口气:

“终于完事了,脑袋里全是浆糊,懵了啊!”

“我刚刚究竟看了个啥?”

“全程懵逼中!”

“我突然想喷几句话,但发现我完全不知道从何喷起。因为我啥啥都没听懂啊!”

“视频还没结束么?哟,才进行了三分之二?”

“还没结束么?”

【下面,为了对我的研究成果进行验证,我们引入BP神经网络。

所谓BP神经网络是一种利用误差反向传播算法的人工神经网络,可以有效的解决很复杂的有大量互相相关的分类问题……】

弹幕,集体崩溃了。

“我靠,又来!”

“神啊,救救我吧。”

“请直接说结论!!”

“苍了个天!”

……

【朴素贝叶斯分类器平均准确率为0.91677,方差为0.00201;而BP神经网络分类器平均准确率为0.93513,方差为0.00175。

因此,我的研究成果是没有问题的。

综上所述,从高频词汇角度研究,我运用各组高频词汇频数

更多内容加载中...请稍候...

若您看到此段落,代表章节内容加载失败,请关闭浏览器的阅读模式、畅读模式、小说模式,以及关闭广告屏蔽功能,或复制网址到其他浏览器阅读!

新书推荐

藏香 体制内闪婚,陆队你媳妇又孕吐了 蜜糖陷阱 问鼎:从一等功臣到权力巅峰 全家疯批,我穿成了养崽文对照组 深情失控,他服软低哄别离婚 雀出樊笼 我的心动女邻居 枕春欢 换嫁才知,阴湿老公竟是隐藏大佬!