科技成果库

SCIENTIFIC AND TECHNOLOGICAL ACHIEVEMENTS LIBRARY

面向社交网络大数据新闻话题智能分析服务引擎

发布日期:2019-12-23    |    浏览:

企业名称:燕山大学

应用领域
其它
应用行业
其它
合作方式

技术详情

(技术特点、主要技术参数、应用范围、市场前景、效益分析等)
  1、技术特点
  该引擎搭建面向互联网用户的新闻内容检索及中文话题分析引擎,为各类新闻客户端APP以及舆情监控软件提供稳定高效和精准智能的智能信息服务;提出基于话题模型LDA的新闻话题事件自动发现算法,真正解决新闻信息处理中知识发现问题;提出基于机器学习算法的新闻文档摘要自动生成算法,以解决如何通过语义检索获得反映用户真实意图的个性化查询结果的问题;创建UCL标签新闻语义分析解读服务技术,高效算法以节省用户成本(时间和精力),人性化和智能化的语义分析结果更便于用户决策,让用户更易于理解分析结果。
  2、主要技术参数
  其主要的技术参数如下:
  1)社交网络用户数至少100万(以微博为例);根据一个新闻话题,对新浪微博新闻信息进行采集。采集的信息包括与该新闻话题相关的微博的基本信息,包括微博内容,转发数,赞数,评论数等。还包括发布微博的用户的基本信息,有用户ID,用户名,性别,关注数,粉丝数,微博数,地理位置,微博等级,注册时间,是否认证等。
  2)通过LDA算法为整理新闻事件,通过按照时间,热度,相关性的不同整理出一系列与此标签相关的新闻微博,内容包括:出版社头像、出版社名、发布时间、评论内容、转发数、点赞数。LDA算法精度>=86%,召回率>=70%,综合指标>=75%;
  3)用户访问响应速度>=0.5s。
  3、应用范围
  本引擎以“为各类新闻客户端产品APP提供标签话题新闻内容检索及中文话题分析服务”为目标,采用大数据分布式处理架构,以自然语言处理、基于机器学习的挖掘分析为核心技术,针对标签新闻话题,提供标签新闻数据实时采集数据服务、语义检索分析,以及标签新闻事件自动发现等智能信息服务,构建标签新闻大数据话题挖掘分析引擎。总体目标为:1)探索以新闻数据为代表的分布式、自动化、以知识发现为驱动的互联网智能信息挖掘及分析的新方法新技术;2)探索服务于互联网用户的,提供可靠新闻知识发现及智能信息服务的社交大数据挖掘关键技术及理论方法。
  该引擎的目标用户为企事业单位(类似新华社),公司(经济公司,娱乐公司),政府;针对不同的用户的信息要求,提供以下产品服务:
  1)提供数据服务:提供用户指定的社交网络的大数据;
  2)智能信息服务:提供自动分析的结果和产生的知识,以供用户决策;
  3)软件服务 :为用户研发一整套包括数据采集,分析引擎,业务可视化的软件系统。
  4、市场前景
  面向大数据新闻话题社交网络智能分析服务引擎是许多先进挖掘及计算技术的综合应用,它涵盖互联网(Internet)和社交网络(Social Network)应用,突破了传统新闻信息管理软件和当前流行新闻客户端应用(APP)的应用范围、使用效果和商业价值。国外的分析表明,新闻话题内容检索及语义分析引擎服务应用将成为下一轮社交化产品市场竞争的热点,Gartner Dataquest 发布的ECM市场报告显示,这一新兴市场估计将超过10亿美元,并且处于不断增长的状态。
本产品的研究成果未来3-5年内的潜在客户和市场分析如下:国内政府部门和相关行业公司,数量在500家左右。每家按平局能够承受30-50万的新闻分析应用软件升级采购费用。预期软件市场容量在1.5-2.5亿。
  5、效益分析
  标签新闻内容检索及中文话题分析引擎是许多先进挖掘及计算机技术的综合应用,ECM市场报告显示,这一新兴市场估计将超过10亿美元,并且处于不断增长的状态。为社会带来不可估量的经济效益。同时,该引擎将有效补充国内新闻挖掘分析及监管监控的空白,提高我国互联网新闻搜索的分析水平,在国际竞争中取得新闻数据服务的技术领先优势。对维护国家稳定和经济安全,推动新华社新闻技术产业的变革和发展,具有很强的现实意义和显著的社会、经济价值。
 

案例描述

适用对象

  • 登录
  • 注册

忘记密码?

注册类型: