网站设计公司易捷网络:专注企业网站设计

如何去分类信息网站防范垃圾信息

来源:易捷网站设计公司     时间:2018-10-26
方法一通过提取信息里的联系方式,建立联系方式黑名单
垃圾信息制造者不管IP如何变、内容如何变,但是联系方式是不变的。我们可以根据这一点来建立联系方式黑名单数据库。目前中国用户用的最多的联系方式有:电话号码、QQ号、网址、Email地址等。这些联系方式都有一定的特征,很容易通过正则表达式提取出来。
那么具体如何建立黑名单呢?列表网的做法是:如果一条信息被用户恶评五次,那么该信息自动标记为恶评状态并隐藏。经确认的被用户投诉的信息也被置于恶评状态。当一条信息被置于恶评的时候,该恶评信息里的所有联系方式均被存入黑名单数据库中,并且出现频率字段加1。这样我们就有了联系方式黑名单数据库了,该数据库有联系方式的出现频率及最新出现时间等信息。所有这些操作除了用户投诉需要人工辨别外,其他的都是机器自动完成的。
有了这个黑名单之后就可以通过它来鉴别垃圾信息了。怎么鉴别垃圾信息呢?列表网的做法是:机器定时地对用户发布的信息进行检查。如果该信息里面含有黑名单数据库里的联系方式,并且该联系方式的出现频率大于1且最近出现的时间是半年以内,那么该信息自动删除。限定半年是给该发布者一个改过自新的机会。
以上是这个方式的简单描述。其实要实现起来还有许多的细节需要考虑,还要避免惩罚过度。比如提取联系方式之前,需要对数据进行处理,比如把1、①、Ⅰ等改为1、删除数字间的空格等;用户投诉为中介的信息不应该做恶评,而是将之改为中介,同时将联系电话放入中介数据库中,以后该中介发布房屋信息的时候系统会自动识别为中介信息。如果中介信息也被恶评的话,那么该中介以后就发不了信息了,这样有点过了。
另外,考虑一种情况,如果一个用户在培训类目里发布了大量的虚假招生信息,如果该用户想发布房屋信息,这个时候如果该用户的联系方式落入了黑名单的话他是发不了房屋信息的。一个比较好的解决方法是在黑名单数据库里增加类目字段。通过黑名单判断垃圾信息的时候还需要检查类目字段。这样就避免了以上情况的发生。
方法二鉴别并删除异地商家信息
分类信息网站的特点之一就是本地性,本地用户到分类信息网站上来看的就是本地的租房、交友、服务等信息。因此如果信息里面出现异地的电话号码的话则应该作为垃圾信息处理。这个可以通过手机属地数据库及电话区号数据库来判断。并不是所有的类目都适用这条方法的,像交友、寻人类目就不应该采用这种方法。但是像二手车类目、服务类目则完全可以采用这种方法过滤掉异地信息。
方法三限制某些类目同一天内一个用户只能发布一条信息
重复的信息太多了,对用户的体验也不好。在这里重复信息的定义是:同一个用户或商家(包括商家聘请的信息发布者)发布的内容相同或相似的信息。这些类目包括:生活服务、商务服务、培训、交友、车辆等。那么如何避免重复信息的发布呢?列表网的做法是:在这些类目中用户一天内发布的所有信息中只保留最近发布的信息,其他信息则删除。
方法四关键字过滤
最后不要忘了关键字过滤。一些有害的、敏感的关键字是肯定需要过滤的。
以上是分类信息网站可以采纳的反垃圾信息的简单的行之有效的几种方式。如果能配合贝叶斯算法过滤垃圾信息那就更完美了。

深圳网站设计公司易捷网络科技是一家专业从事深圳网站建设和深圳网页设计的深圳网络公司,主要经营的业务有:深圳网站建设、网页设计、网站推广优化、企业邮箱申请、网站域名空间备案。欢迎来电咨询(微信同号):13714247375
返回上一级
您可能需要:
网站设计图标
企业网站设计
高速稳定的国内空间,免费备案的香港、国外空间,单线、双线以多线空间
点击咨询
关键字推广优化图标
网站推广优化
指定网站关键词,确保一月之内优化到搜索引擎得首页,到首页之后再收费
点击咨询
企业邮箱图标
企业邮箱申请购买
以企业官网后缀为名称的邮箱,彰显公司企业形象,先试用,满意后再付款
点击咨询
国徽图标
网站域名空间备案
域名空间提交国家工信部备案审核,十五天即可完成,网站备案实名势在必行
点击咨询
网站设计相关资讯推荐
响应式网站制作如何做更吸引用户
产品展示型网站解析
网站设计公司帮客户选服务器
深圳企业网页设计要点
企业公司网站优化当中的链接搭建事项
网站为什么要做SEO
如何提高网站的用户感受
我们应该怎样防止网站过度优化
企业网站设计要注意的细节问题
新生网站该逆流而上还是婉转求存
网站界面设计中菜单图层的类型有哪些
网站设计最重要的是什么步骤
怎样建立网站具体操作流程是什么
AI人工智能动了SEO那些奶酪
深圳网页设计为什么如此优秀
QQ在线咨询
 
金亚洲打不开