设为首页收藏本站

绿色BI论坛商业智能大数据交流社区

 找回密码
 注册

QQ登录

只需一步,快速开始

查看: 166|回复: 0

内容扫描已不再是难题 语义分析技术成关键

[复制链接]
发表于 2017-8-4 15:54:25 | 显示全部楼层 |阅读模式
  互联网内容安全战争早已打响,网络内容审核也一直都有人在做,但是现在似乎解决问题的速度远远落后于问题出现的速度。现实的问题是:不良信息数据级别不断增加,人力根本应接不暇,而且人工审核的成本颇高,企业也颇受其累!
  人脑的理解力与联想力当然可以保证人工审核的质量,但人眼看的速度和计算的速度跟计算机比还是有很大差距。只有让技术不断积累学习人的判断力,我们才有可能战胜这些信息恶魔。
  技术要突破的难题:识别多且准确率高!
  北理工大数据搜索与挖掘实验室结合多年的实战经验,利用多项自然语言处理算法,推出了面向复杂文本大数据的内容智能过滤系统。
  九眼智能过滤系统在文本内容审核上有三大突出研究:1,可实时智能识别关键词音变、形变与拆字等常见变体;2,实现了语义的精准排歧;系统内置了国内最新最全的知识库,适用于众多不同场景。
  变形识别
  九眼智能过滤利用完美双数组TRIE树词典管理与检索方法,自动识别形变词、音变词、拆字、噪音、繁简体、全角半角、中间加各类干扰噪音等变体;
  音变:系统利用内置汉字拼音库,自动地对关键词进行字音转换,生成敏感词的全拼与简拼,极大地增加了过滤范围与命中率。
  形变:系统内置同形字库,可对关键词进行字型转换,使各类拆字、组合字等字型变种无所遁形。
102 .png
  语义分析
九眼智能过滤利用NLPIR语义精准分词系统与情感分析系统,精准识别与过滤,排除正面无害的信息。NLPIR语义精准分词系统是张华平博士先后倾力打造十余年,内核升级10次,获得了2010年钱伟长中文信息处理科学技术奖一等奖。主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;文本关键词提取,词性、类别、频率,人物、地点、事件等;
  得分参考:关键词类别的权重、词的长度、不同变形的权重(形变还是音变)以及文本形式:账号还是内容等等。
  内置最新最全词库
  系统内置了十大类型的关键词库。词库囊括了很多行业,适合不同领域用户使用,并且词库会在使用中不断积累优化,为用户定制本专业领域的最新最全词库。系统支持自定义关键词类别与权重,增量添加百万量级词库。
  我们对大量的账号做了测试,发现了大量的不良及有害信息,准确率也相当可观。技术的进步是无止境的,九眼智能过滤也一直在努力改进中,经过不断迭代,期望得到越来越精准的审核过滤技术。目前,九眼智能过滤系统已经面向企业市场,我们期待为中国的互联网净化做出一份努力!

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

手机版|使用帮助|绿色BI论坛商业智能大数据交流社区 ( 粤ICP备09215901号-2   

点击这里给我发消息

粤公网安备 44049102496016号

GMT+8, 2018-2-19 16:07 , Processed in 1.232402 second(s), 25 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表