PHP软件开发、内外贸网站建设、谷歌百度网站优化、百度竞价、谷歌ads推广和阿里运营店铺以及相关工具使用经验知识分享,希望能结识各路牛鬼蛇神,更愿向各路人讨教与探讨各种相关技巧。

郭玉龙 > SEM竞价 >

Google是通过哪些方面来判定原创文章与伪原创

编辑:郭玉龙
日期:2021-07-25 00:36:32
SEM竞价
人已围观
很多站长在做站群的时候生成大量的内容来填充网站,由于时间和精力的局限,绝大多数站长一般都会借助采集软件采集+伪原创,对于原创和伪原创Google是怎么判断的呢?其实Google对于伪原创的判别要比百度来的准的多,现在我们就来看下Google是通过哪几方面判定原创与伪原创的。
 
1.内容相似度
内容相似度是搜索引擎去重用的最多的算法,用的比较多的一种是TF/IDF算法,这个也是计算相关性的算法,TF-IDF的主要意思是说:如果某个词或短语在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
 
TF词频(Term Frequency)指的是某一个给定的词语在该文件中出现的次数。
 
IDF反文档频率(Inverse Document Frequency)指的是:如果包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。
 
当一篇文章根据TF/IDF进行计算后,形成了一个多维的向量,这个向量就是这篇文章的内容特征向量,当两篇文章的特征向量趋于一致的时候,我们认为这两篇文章的内容接近,如果一致则说明是重复的。
 
关于TF/IDF与向量算法的详细请参看Google黑板报的数学之美12-余弦定理与新闻分类
 
2.数据指纹
当搜索引擎通过相似度把文章收集起来后,要判别一下是否是重复文章,经常用的就是数据指纹,数据指纹有很多种算法,常见的比如讲文章的标点符号提出,进行对比,你很难想象有两篇不同的文章,标点符合是一致的。还有对向量进行对比,也就是TF词频(关键词密度)等等来判断。
 
这时候你可以想象出,现在很多伪原创工具,只是把关键词进行了替换,你想关键词替换后,标点符号指纹是不变的,甚至连TF词频都不变。还有对文章进行段落的重拍,这个的确是打乱了标点符号,但是向量和词频问题依然存在。那么这样的伪原创工具有没有价值你就可想而知了。(可能对于百度还是有作用的)
 
3.代码噪音
前面说的这些,都是基于一个条件的,就是搜索引擎要知道文章是什么,因为每个网站的模板都不同,代码也不同,各种信息混合在一起,如果能找到正文就是搜索引擎第一要处理的。
 
一般Google都会通过对代码的布局和噪音比例进行区分,哪些是导航,哪些是正文,并可以对一些典型的代码进行忽略。那么我们在做模板的时候,就要注意了。这里有个纠结点,就是整页面降噪,方便搜索引擎进行正文的确认,但是正文区要适当的加燥,增加搜索引擎识别重复性的难度。


Google是通过哪些方面来判定原创文章与伪原创的相关文章

如何提升google adwords质量得分

如何提升google adwords质量得分   在我看来,谷歌关键词搜索广告中,最重要的一个点就是质量得分(quality score)!调搜索广告就是提升质量得分!   关于这一点,我相信了解谷歌广告评级(Ad rank)算法公式和点击费用(CPC)算法公式的人都会举双手赞同。因为在这两个计算公式中,质量得分都是决定性的一点,所以控制了质量得分,就能很大程度上决定Ad ...

谷歌海外推广要这样做才有效果

谷歌海外推广要这样做才有效果   1:谷歌adwords开户 目前国内有两种开户模式,一种是自主管理账户模式,即自己负责账户的开户、充值、优化和维护,目前谷歌对这种模式优惠,另一种是比较传统也是目前比较通行的谷歌代理商模式,即由谷歌代理商来负责账户的开户、充值、优化等工作,自己只需要做一定的监督工作即可,这 种模式一般开户费是1000元/年,代...

Google左侧排名优化定义:什么是Google左侧排名

定义—什么是Google排名? 所说的Google排名是指,大家也可以叫做。Google在刚创立时就对外宣布Google左侧的搜索结果一定是要显示最公平、公正的信息。不受任何人为及金钱因素的影响。可能大家对Google公司宣布的消息有所疑问:那为什么提供Google左侧优化排名的公司收费能把客户站内的关键词排名在左侧呢?   第一,Google官方不会收受任何公司、组织和个人的金...

文章地址:https://guoyulong.cn/sem/10.html
关键词: Google | 原创 | 文章 | 伪原创 |
本栏推荐
猜你喜欢
站长精选