seo搜索引擎分词—搜索引擎分词

2024-05-11 08:23:21   来源:admin   
搜索引擎 ——SEO中什么样的专业名词和词语不会被分词在分词选取中要遵守两种匹配原则:第一个是:模糊匹配第二个是:精准匹配那么在分词中,题主的“搜索引擎优化”是不是一定要把“搜索引擎优化”和“搜索”分别做成精准匹配呢?在百度分

SEO中什么样的专业名词和词语不会被分词

在分词选取中要遵守两种匹配原则:

第一个是:模糊匹配

第二个是:精准匹配

seo搜索引擎分词—搜索引擎分词

那么在分词中,题主的“搜索引擎优化”是不是一定要把“搜索引擎优化”和“搜索”分别做成精准匹配呢?

在百度分词中有一个原则:可以把百度数据库可以想象成一个成语词典,那么在百度日益发展成语义搜索的今天,更加会对一些现有的词语进行精准的匹配。

seo搜索引擎分词—搜索引擎分词

那么问问:专业名词到底会不会被分词?

这个问题的答案呢,我们觉得也不能一概而论,但大多数时候一个专业名词更加会被百度精准匹配,而产生不了分词匹配更好的效果。比如:“节假日”这个词语,就不可能匹配成“节假”和“日”同时有排名;"麻辣烫"就不可能匹配成“麻辣”和“烫”同时也有排名;

但至于“网络营销”会不会同时匹配“网络营销”和“营销”同时有排名,就要看百度是否把“网络营销”当成一个专业词,怎么看?我们就要在以后的SEO学习中更加的探索,不过应该可以从百度搜索结果中看到一些端倪的。

seo是什么?

SEO(Search Engine Optimization)搜索引擎优化,是一种利用搜索引擎规则进行网络营销方式的一种,通过SEO优化提升网站页面展现量和点击量,获得更多网络流量并获得最终的转化。首先先和大家介绍一下搜索引擎的工作原理,主要是分为三个步骤,分别为搜索引擎蜘蛛的爬行抓取、预处理和最终的排名展现,爬行抓取是搜索引擎蜘蛛发现一些新的页面之后,会将网页的html代码存到数据库中,预处理也就是接下来的步骤,通过提取文字、去停止词、去噪音板块、中文分词、去重(去掉互联网上已有的内容,根据关键词频率等来确定),倒叙索引等有一个大致的排名,并将符合要求的页面存储到索引库里。最后一步就是排名展现,根据用户使用的关键词进行分词,进行文章匹配,根据相关性计算来给出我们搜索的网页排名,以上三个步骤就是搜索引擎的原理,大家在遇到问题的情况下,可以看看是哪个环节出现问题,具体去寻找一下问题出现在哪里。

SEO优化的方面主要分为站内优化和站外优化两个方面,站内优化指的就是网站本身内部优化,主要是包括代码优化、内容优化、标签优化、结构优化等,大家在平常主要需要关注的几点比如关键词密度,一般都在2%-8%,如果不布置关键词的话,可能页面就没有相应关键词的排名,但是如果布置过度的话,可能会被认为是优化过度,结果可能是适得其反。用户体验的优化和高质量的内容也是需要大家需要关注的,其它方面例如图片优化、url优化、代码优化、网站打开速度等都会影响搜索引擎对我们网站的评价。

SEO网站优化搜索引擎蜘蛛抓取预处理过程?

1、提取文字现在的搜索引擎还是以文字内容为基础,蜘蛛抓取到的页面中的HTML代码,除了用户在浏览器上可以看到的可见文字处,还包含了大量的HTML格式标签,JavaScript程序等无法用于排名的内容,搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容

2、中文处理分词是中文搜索引擎特有的步骤

搜索引擎存储和处理页面及用户搜索都是以词为基础的

英文等语言单词与单词之间有空格分隔,搜索引擎索引程序可以直接把句子划分为单词的集合

而中文词与词之间没有任何分隔符,一个句子中所有字和词都是连在一起的

搜索引擎必须首先分辨哪几个词组成一个词,哪些字本身就是一个词

比如“公务员考试”将被分词为“公务员”和“考试”两个词

3、去停止词无论是英文还是中文,页面内容中都会有一些出现频率很高,却对内容没有任何影响的词,如“的”、“地”、“得”之类的助词,“阿”、“哈”、“呀”之类的感叹词,“从而”、“以”、“却”之类的副词或介词

这些词被称为停止词,因为它们对页面的主要意思没什么影响

英文中的常见停止词有the,a,an,to,of等

4、去除噪音绝大部分页面上还有一部分内容对页面主题也没有什么贡献,比如版权声明文字,导航条、广告等

以常见的博客导航为例,几乎每个博客页面上都会出现文章分类、历史存档等导航内容,这些页面本身与“分类”、“历史”这些词都没有任何关系

用户搜索“历史”、“分类“这些关键词时仅仅因为页面上有这些词出现而返回博客贴子是毫无意义的,完全不相关

所以这些区城都司于噪声,对页面主题只能起到分散作用

5、去重去重的基本方法是对页面特征关系词计算指指纹,也就是说从页面主体内容中选取最有的一部分关键词(经常是出现频率最高的关系词),然后计算这些关键词的数字指纹

这些关键词选取是在分词、去停止词、消噪之后

6、正向索引7、倒序索引8、链接关系计算页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字,这些复杂的链接指向关系形成了网站和页面的链接权重9、特殊文件处理除了HTML文件外,搜索引擎通常还能抓取和索引以文字为基础的多种文件类型,如PDF、Word、WPS、XLS、PPT、TXT文件等

我们在搜索结果中也经常会看到这些文件类型

但目前的搜索引擎还不能处理图片、视频、Flash这类非文字内容,也不能执行脚本和程序

官方微信

TOP