灵云 :2011年捷通华声开发的应用

更新时间:2024-09-20 21:25

灵云 是一种可以用语音、手写、拍照,手势,将来甚至可使用脑波识别等智能手段来操作、感知手机、计算机等数字设备的网络云服务,让人机交互像人与人沟通一样的简单自然!

简介

灵云是一种可以用语音、手写、拍照,手势,将来甚至可使用脑波识别等智能手段来操作、感知手机、计算机等数字设备的网络云服务,让人机交互像人与人沟通一样的简单自然!灵云由北京捷通华声语音技术有限公司创造推出,是全球第一个感知云!

灵云平台是基于云计算技术和分布式存储技术,将TTS、ASR、OCR、 HWR、MT等HCI技术全面整合的综合智能云服务平台。

通过移动互联网、互联网随时随地享受灵云为您提供的“听、说、读、写、译……”等全方位的智能人机交互技术服务。

平台技术

灵云所提供的HCI技术可以为人与机器之间的交流,提供更加智能和人性化的操控方式,改变原有的通过鼠标和键盘,并以眼睛为主要操控手段的控制方式,这是继微软推出windows开创视窗时代,苹果公司推出IPhone开创触控时代之后,又一个全新的智能人机交互时代的来临。

在这个崭新的时代,人们操控数字设备的方式得到了革命性的改变,键盘鼠标不再是唯一的交互与控制方式,以语音、手写为代表的人机交互技术将逐渐取代键盘和鼠标在互联网时代的绝对地位,作为获取信息最重要的人体器官——眼睛,将得到前所未有的解放。人们可以通过语音、手写来完成相应的控制工作,眼睛将会获得更多的信息,从而让设备产生更大的生产力,带来更大的娱乐价值和学习价值。

灵云使用了全球最好的HCI技术,并将之按照人类最自然的方式,以云+端的方式提供给用户。为终端用户提供HCI技术云服务,包括语音合成云服务(TTS)、手写识别云服务(HWR)、文字识别云服务(OCR)、语音识别云服务(ASR)、自动翻译云服务(MT)等。

灵云是一个应用于互联网和移动互联网的HCI技术云服务平台,其主要目标是:

1) 实现可面向互联网及移动2G/3G网络提供HCI云服务的服务器,在捷通华声现有技术条件的基础上为移动终端应用程序提供多路并发的语音合成、手写识别、文字识别功能,通过架设在互联网的云端服务器,用户可以随时随地获得高质量的HCI技术云服务;

2) 实现基于移动终端以及桌面平台的HCI技术应用客户端,提供统一的HCI技术应用开发接口,通过该接口用户可以方便、快速地开发语音应用;同时,灵云也将开放一些基于移动以及桌面平台的HCI技术应用,用于展示灵云平台的功能和使用方法,让用户直接体验到最新HCI技术的魅力。

灵云提供了架构于互联网的HCI技术云服务,以及一套移动互联网HCI技术解决方案、应用示例,把HCI技术服务的应用范围拓宽到移动互联网领域,为HCI技术服务产品走向移动互联网市场开辟全新的应用模式。

灵云系统采用分布式架构,可以满足行业级应用的高可靠性、高可用性要求。针对传统HCI技术应用集成开发困难,业务设计繁琐的问题,灵云产品大大简化了集成开发和业务开发的复杂度,为系统集成人员和业务开发人员提供了便捷、高效的开发环境

“灵云”平台的云服务带来的一个重大变革是从以设备为中心转向以技术服务为中心。硬件的过时,应用软件的过时,在云上都不再是一个问题,只要有互联网或移动互联网,就可以享受到多种多样、高质量、免更新打扰和个性化的HCI服务。现有的“灵云”平台支持TTS(语音合成)、ASR(语音识别)、HWR(手写识别)、OCR(图像识别)、失明(自然语言处理)等多项HCI技术,并在持续更新性能和添加其他的功能。

“灵云”是为用户提供人机交互智能人机交互服务的平台,它拉近了用户与机器之间的距离,简化了用户获取信息的方式。在互联网已经普及的今天,“灵云”更将渗透到每一个角落。想让机器与人沟通变得更加灵活、自然,“灵云”便是最好、最适合用户的选择。“灵云”让人的五官感知从10米以内延伸到整个世界!

系统架构

灵云平台由平台分布式服务节点、业务运营支撑系统、开发者社区组成。基本架构图如下所示:

1.分布式服务节点:

物理架构

随时随地享受灵云为您提供的“听、说、读、写、意……”等全方位的智能人机交互技术服务。

特点

一站式解决

灵云平台是一个综合性的智能人机交互云服务平台,可以提供TTS、ASR、HWR、OCR、NLP等多种智能人机交互技术服务,使用者可以在灵云同时获得多项服务支撑,一站式解决了需要到不同智能人机交互技术提供商获取服务的繁琐过程,让智能人机交互技术简单化,实用化。

能力介绍

TTS(语音合成)技术

捷通华声的TTS技术在国内处于领先水平,产品市场占有率达50%,金融行业市场占有率达80%,并且在高铁各站点、奥运会、世博会等多个大型项目中得到成功应用。

捷通华声TTS可以提供中文引擎、英文引擎,以及其他语种引擎以及提供通过大规模录音数据的处理而形成的语音数据库。

ASR(语音识别)技术

语音识别,就是让机器通过分析和理解过程把语音信号转变为相应的文本或命令的尖端技术。语音识别是一门交叉学科,所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。语音识别技术语音合成技术一同成为实现人机语音通信,建立有听和讲能力的语音系统所必需的两项关键技术。

捷通华声ASR核心引擎是针对特定语言的识别软件模块,该软件模块是整个ASR软件的核心模块。核心模块接收其他模块的设置,并根据设置内容对语音数据进行识别,并将识别结果列表返回给调用模块。返回的识别结果列表,包含一组识别结果--识别信心值对,以供调用模块使用。

OCR(光学字符识别)技术

OCR(光学字符识别),是通过图像处理和模式识别技术对光学的字符进行识别的意思,是自动识别技术研究和应用领域中的一个重要方面。OCR主要是指文字识别软件,它是一种能够将文字自动识别并录入的软件技术

捷通华声OCR核心引擎是针对特定语言的识别软件模块,该软件模块是整个软件的核心模块。核心模块接收其他模块的设置,并根据设置内容对文字图片数据进行识别,并将识别结果列表返回给调用模块。

HWR(手写识别)技术

手写识别,是指将在手写设备上书写时产生的有序轨迹信息化转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字的内码的一个映射过程。

捷通华声HWR以先进的识别算法、多核融合技术、大容量字典裁减压缩技术、高性能字符切割算法和语言模型技术为基础,是一种能够在任何时间、任何地点,向任何人实时、准确地提供手写识别服务的高效便捷手段,非常符合信息时代动态更新和个性化查询的需求。

NLU(自然语言处理)技术

自然语言处理(Natural Language Understanding,简称NLU)技术,涵盖领域非常广泛,包括句子检测,分词,词性标注,句法分析,文本分类/聚类,文字角度,信息抽取/自动摘要,机器翻译,自动问答,文本生成等多个领域。

捷通华声利用多年来在语音语义数据和算法方面的积累,推出了自己的自然语言处理技术,并适时推出了利用自然语言处理技术的智能客服、智能意图控制等产品。这些产品在市场上得到了广泛应用,业务涉及通讯、政府、电子商务、智能家电和汽车等行业,在智能人机交互(文本、语音等)领域处于行业领先地位。

参考资料

免责声明
隐私政策
用户协议
目录 22
0{{catalogNumber[index]}}. {{item.title}}
{{item.title}}
友情链接: