当前位置: 首页 » 网站建设 » 网站建设知识 » 正文

Google通过提交表单抓取新页面

发布时间:2025-01-19 以下文章来源于网友投稿,内容仅供参考!

Google虽然已经是抓取页面最多的搜索引擎,但还是不满足,因为有很多网页和信息是很难被发现和抓取的。这也就是为什么做网站时一定要注意搜索引擎友好。

现在Google开始提供提交表单 form发现其后的网页。本想写个详细说明,刚好看到幻灭已经写了,就直接引用主要内容如下。

之前我们已经知道Googlebot除了能抓取文本、视频、音频、Flash等类型的内容外,它还可以通过JS代码抓取链接。并且在未来,Googlebot还有望直接识别图片及视频里的文字。为了进一步抓取互联网的内容,Google宣布Googlebot已可通过提交表格抓取更多内容。

据Google所述,当前Googlebot正对一小部分高质量网站进行表格提交的试验。当Googlebot发现这些网站上有HTML表格时 即检测到时,它就会自动从网站上选择一些词语输入表格的文本框里,然后再选择不同的按钮、勾选项及验证项,再提交表格。提交表格后一旦 Googlebot认为出现的新内容是合法并且是有趣及独特的,它就可能会把内容抓取进Google的搜索结果索引数据库里。这意味着Googlebot 现在已经懂得通过提交表格而获得新内容。

同时Google也强调,如果网站的robots.txt文件里禁止了对表格进行了隐藏,不希望表格提交后所产生的链接被抓取,那Googlebot 是不会抓取的。此外,当前Googlebot只提交GET类型的表格。比如当表格需要输入用户个人信息比如密码、用户名、联系人等,Googlebot是 会自动略过这些表格的。

这种表格抓取当前只是一个小范围的试验,Google表示不会对网站造成影响。既不会对网站的PR值造成影响,也不会对网站的正常抓取、排名等造成影响。

Matt Cutts也写了个帖子举例说明这么做的好处。有很多网站首页只是以表单方式列出公司下属的各地区分站,没有以链接形式列出各分站。这种网站以前是不能被深度收录的,因为Google不提交表单,就发现不了隐藏在表单后面的URL。

这当然给一些网站的收录创造了机会,是否也会对某些公司网站带来一定的安全风险?网站某部分不想被收录的话,赶紧用robots.txt文件禁止吧。


  • • 优化公司真实的谎言

    搜索引擎营销行业在一定程度上弥漫着一些谎言或者误导。这些误导大多是由一些所谓的搜索引擎优化专家制造出来的。这些专家一知半

  • • 网站内容优化:关键词分析工具

    内容优化仍是目前SEO活动最关注的,因为你会不断地为网站或是博客增加内容,因此总有新的机会可以改善搜索引擎的可视度。但要在

  • • 对于自身SEO技术的评价

    有时回想这几年都学习了什么呢?大致的想象一下,除了SEO好像再也找不出来什么了,几乎都是跟搜索引擎优化相关的。在么就是一些

  • • 愚人节的第二天 百度开了个玩笑

    百度昨天更新,就把相关搜索给删除掉了。当时我没在意,因为百度在别的地方还提供这个功能。d.baidu.com/rs.php 通过这个地址,

  • • SEO资料的迷思

    樂思蜀认为,目前是SEO初学者最困难的阶段。可能老SEOer不以为然,觉得早些时候自己学习SEO时,边啃English边寻找新大陆般的找资

  • 360文库
    腾讯广告推广平台入口
    360移动开放平台
    360广告投放平台
    360广告联盟平台官网
    京东联盟官网登录入口
    微盟官网
    阿里妈妈官网
    淘宝联盟官网
    百度广告联盟平台官网入口
    山西农业大学教务处:jwc.sxau.edu.cn
    太原理工大学教务处:jwc.tyut.edu.cn
    山西师范大学教务处:jwc.sxnu.edu.cn/jwcweb/xscx.asp
    曲阜师范大学教务处:jwc.qfnu.edu.cn
    山西大学网络服务:xgbzz.sxu.edu.cn
    青岛科技大学就业信息网:job.qust.edu.cn
    山西大学教务处:jwc.sxu.edu.cn
    青岛科技大学学生资助管理中心:xszz.qust.edu.cn/index.asp
    太原科技大学学生处:210.31.104.100/xsc/Default.aspx
    青岛科技大学学生部:student.qust.edu.cn