语义分析系统 超牛技术大神研发深度语义分析系统

2019-04-03

出国求学前,石忠民在中国空空导弹研究院研究歼-10战斗机相关的课题,这位技术大牛最终却对“答案式搜索引擎”情有独钟。

2000年,石忠民远赴加拿大留学,师从国际自然语言处理领域权威Fred Popowich教授,主攻互联网搜索引擎的关键技术。2008年获西蒙弗雷泽大学(Simon Fraser University)计算科学博士学位。

语义分析系统 超牛技术大神研发深度语义分析系统
语义分析系统 超牛技术大神研发深度语义分析系统

刚毕业,石忠民就联合了七位博士组建了创业团队,其中六位是同窗,另一位就是他的导师Fred Popowich教授,在加拿大温哥华成立了索答股份有限公司。

石忠民清楚地记得,在他博士论文答辩结束的第二天,硅谷的一位投资人直接飞过来找他聊天,“谈完后他直接给了我们一笔天使投资。” 当时他们聊的正是石忠民看好的一项技术产品——答案式搜索引擎。

语义分析系统 超牛技术大神研发深度语义分析系统
语义分析系统 超牛技术大神研发深度语义分析系统

一般的搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,再对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。近二十年来,全球最大的搜索引擎公司Google,其搜索引擎的产品形态和服务方式几乎没有变化——通过关键词匹配返回给用户数不清的网页列表。

语义分析系统 超牛技术大神研发深度语义分析系统
语义分析系统 超牛技术大神研发深度语义分析系统

而答案式搜索引擎,为用户的任何问题提供的是即时答案。当时,这项新一代的智能搜索引擎让石忠民团队在极短的时间内获得了诺基亚、加拿大国家电视台等企业的青睐,承接了其互联网市场数据挖掘及智能分析项目。

2008年6月,石忠民受国务院侨办的邀请,回中国考察了十二个城市,最后决定在广州创业。

刚回国那会儿,由于缺乏经验,石忠民和他的团队走了一些弯路。

2011年,石忠民团队投入上千万元开发了一个购物搜索项目,主要通过算法解决用户的购物决策。经过半年的运营,出现了资金短缺的问题,当他们尝试第二轮融资时,市面上却已经推出了功能类似的产品。面对这个无疾而终的项目,石忠民反思,“最大的问题就是品类铺太多了,我们的核心技术还没体现出来,就已经没资金,没法继续,蛮可惜的。” 购物搜索的项目没能成功,但是技术和平台却留下来了,每一次试错纠错都是在进步。

2012年,由石忠民团队研发的“一找小七”在微博上火了有一阵子,其通过抓取新浪微博上开放的用户数据,建立了一套基于人的语义模型,对每个需要“调查”的帐号进行地毯式的信息搜索、整理工作,依靠的是复杂的语义分析和数据挖掘技术。

后来,当B2B产品趋向成熟,石忠民团队便开始为美的、华为、宝洁等大公司提供大数据服务。直到去年,索答的大数据业务被一家新三板企业成功收购。

有了富余资金,石忠民又想那个起了他那个“答案式搜索引擎”。“当初回国创业的初心,终于有机会继续追寻了。”

石忠民团队掌握的核心技术——“答案式搜索引擎”,其中包括“网页抓取和信息提取”、“信息搜索和分类”,“信息摘要和深度分析”和“实时网络信息流”四种信息服务,在任意领域单独使用或者任意组合使用都可以快速搭建相应的产品。

经过紧锣密鼓的准备,去年12月,索答的 “一找答案引擎”APP正式上线,这是全球首个商业化的答案引擎,用户通过语音或文字输入,即可马上获得摘要形式的答案反馈。其中必须运用到的“文本自动摘要技术”由索达拥有自主知识产权,在业内处于领先地位。

上线半年,一找APP已经拥有40万用户,DAU 20000 。一找APP基于人工智能技术,在所有相关网页中智能提取用户感兴趣的内容,并自动生成一个图文并茂的答案,在第一时间通过移动终端、可穿戴设备、智能机器人等为用户提供即时答案,帮助用户更快地决策和行动。

石忠民用一句话概括了一找APP的精髓——“唯一的标准,就是用户需要什么,我们就给什么。”

支持这一苛刻标准的,是索答研发的深度语义分析系统,它涉及到一系列自然语言处理(NLP,Natural Language Processing)技术,可以从大量、冗余、非结构化或结构化的数据中,准确作出情感分析、趋势分析、地域分析、关系分析等,让计算机读懂自然语言,将散落在大量网页上的相关信息去粗取精,提供给用户有价值的信息。

统计表明,用户在使用语音时倾向于录入较为完整的句子,而在使用文字输入时平均只使用2-3个关键词。当用户的表达不够清晰、完整时,特别是包含多义词(如“苹果”可以是水果或手机,“成龙”可以是人名或电影)的情况下,系统需要通过上下文准确判断用户的真正需求,并进行智能分析和预测。

石忠民简单地介绍了“机器猜测”的三个层次:第一个层次就是大多数人的需要,机器就认为是用户所需要的,这样的筛选标准给出答案的正确率也比较高;第二个层次就是用户数据,譬如用户的访问习惯、历史记录,这是基于个人数据,更具个性化;第三个层次是基于场景,再运用逻辑推理的手段进一步猜测。

“所有人工智能,包括最新的,都不是真正模拟人的思维过程,我们要做的是,让机器理解人类语言。” 石忠民团队希望这套深度语义分析系统最终能百分百涵盖到三个层次,但是现在还在第一个层次。

一找APP只是深度语义分析系统的搭载者之一,索答正计划将深度语义分析技术向智能设备厂商开放,为包括可穿戴设备,智能家居,机器人等设备提供“大脑”,以更丰富的产品形态覆盖所有使用场景——日程管理、家居控制、出行交通、就餐住宿、交谈助手……

Summba® Base 家庭智能语音助手是索答的第一款硬件产品,目前正处于功能样机阶段,计划10月份进行量产销售。

Summba® Base 主要用于家居环境与酒店空间,通过语音控制红外线家电入手,实现自然语言随意沟通,典型用例如下:

人:打开电视

机:(打开电视和机顶盒,调到用户这个时间段最常看的频道)

人:看中央6套

人:看个大片吧

机:(搜索电视节目表)正在播放的有魔兽和天启,看哪个?

人:天启

随着深度语义分析系统的开发迭代,索答的硬件产品将逐步扩展使用场景和功能。“深度语义分析系统才是索答的核心产品,当它令机器真正地理解了人类语言,答案搜索引擎、智能设备这些搭载品将带给人类无与伦比的使用体验。”

[超强技术背景]

索答作为技术驱动型企业,目前技术人员占公司总人数70%。

- CEO石忠民,计算科学博士、博士后,索答核心技术发明人,数说故事、塔布数据(后被新三板企业互动派并购)联合创始人,国家“千人计划”特聘专家;

- CTO 徐叶强,计算语言学专家,原安望科技CTO,“小灵灵”智能机器人之父,酷狗高级算法工程师;

- 核心成员熊伟华,计算科学博士图像识别和视觉媒体合成领域国际知名专家,取得7项美国专利,9项中国专利,两项国家自然科学基金。

索答团队作为国务院侨办“重点创新创业团队”,至今已取得9项发明专利,30多项软件著作,并在国际著名会议和期刊上发表论文150余篇,其中,深度语义分析系统是由七名北美计算机博士创业团队,七年持续研发的成果积累。

2015年索答盈收1059万元,目前公司有融资计划,需求资金为公司一年运营成本,其中包括开拓计算机相关资源,拓展市场与硬件生产等业务。返回搜狐,查看更多