大数据深度学习平台(AI-DPS)是中智讯公司基于容器云和大数据技术开发的一款面向人工智能相关专业师生,进行机器学习和深度学习算法建模实验的分布式计算资源集群管理平台。
大数据深度学习平台(AI-DPS)采用容器云技术,部署在通用的GPU/CPU服务器集群上,满足数十人或上百人同时运行机器学习和深度学习算法构建和模型训练任务。同时该平台还提供用户管理、容器镜像管理、集群硬件监控和任务运行监控等功能。
● 硬件资源:
AI算力服务平台的硬件资源包括CPU+GPU服务器集群、网络存储单元和高性能网络单元构成,学校可以根据自身的教学和科研需求,灵活搭配构建计算平台的硬件集群。
● 算力平台:
AI算力服务平台基于容器云和大数据技术,在硬件服务器集群基础上,提供云计算管理、大数据管理和深度学习管理三大平台服务,具体服务内容如下:
云计算管理平台:提供AI算力平台所有计算资源的自动化管理,负责计算资源的调度和伸缩性控制,确保上层大数据和深度学习集群的稳定运行。
大数据管理平台:基于云计算管理平台,提供大数据集群管理和服务,包括Hadoop和Spark大数据集群,提供分布式文件系统HDFS和MapReduce分布式运算环境。
深度学习管理平台:基于云计算管理平台,提供并行的深度学习算法建模任务运行环境,支持TensorFlow、PyTorch、Caffe和CNTK等深度学习框架。
● 大数据处理工具:
人工智能算法模型的建立需要海量的数据基础,为了满足教学人员搜集和处理海量数据的实际需求,AI算力服务平台提供了一系列的数据操作工具,包括数据采集爬取工具、数据模拟生成工具、数据标注工具和数据可视化工具。具体介绍如下:
数据爬取工具:提供分布式的多线程互联网数据采集和下载功能,根据指定的URL,快速爬取海量的互联网数据。
数据模拟工具:按照数据生成的配置,快速生成千万级以上的模拟数据,数据生成配置包括数据可选序列、数据概率分布、数据上下限、数据随机化规则等,通过这些数据生成配置,数据模拟工具可以自动生成所需要的海量随机化模拟数据。
数据标注工具:为了解决人工智能算法建模缺乏标注数据集的问题,AI算力服务平台还提供了数据标注工具,可以对图像、视频、文本等数据进行标注,提供布点、划线、拉框和文字标注等操作,适合于图像分割、目标检测、图像分类、视频跟踪等机器视觉算法建模的数据标注。
数据可视化工具:数据可视化工具提供了强大的数据挖掘分析和可视化展现能力,包括OLAP分析、地理位置分析,关联分析和社交网络分析等功能,提供散点图、柱图、饼图、气泡图、雷达图等丰富的数据图表可视化展现方式,用户可以快速生成各种丰富的数据统计报表,并导出为WORD、EXCEL、PDF等文档格式。
设备部件 | 参数指标 |
AI服务器集群 | 1)深度学习集群管理平台完全基于容器云架构,所有的管理平台服务和处理任务均在容器中运行,提高平台硬件资源利用效率; 2)提供英伟达GPU显卡深度学习训练容器,内置多种常见的英伟达GPU显卡驱动+CUDA工具集以及cuDNN深度神经网络加速包,支持英伟达GPU服务器集群的容器化部署; 3)支持TensorFlow、PyTorch、Caffe、CNTK、XGBoost、MXNet、Scikit-Learn等深度学习框架的处理任务运行; 4)提供CPU+GPU服务器集群的硬件资源监控功能,包括CPU、GPU、内存、磁盘IO、网络等设备的实时监控; 5)支持服务器集群在线增加和减少服务器节点,并重新配置和迁移相关平台服务到不同的服务器节点; 6)提供深度学习处理任务的在线调试、错误报警、日志管理、性能监测功能; 7)提供大数据处理平台功能,支持大数据文件系统HDFS和分布式任务调度框架YARN,深度学习任务可以无缝读写大数据文件系统HDFS;提供Spark大数据处理框架容器,支持Spark大数据处理任务的分布式运行; 8)提供用户权限管理功能,管理员可以注册平台用户,并分配给用户不同的虚拟集群,支持不同用户之间任务和数据的隔离; 9)提供用户资源申请自动审核和仲裁功能,管理平台根据用户申请的计算资源份额,结合集群现有剩余计算资源,自动分配相应的计算资源份额,确保用户任务的运行; 10)提供Visual Studio开发工具集成插件,通过Visual Studio Coder,用户可以远程提交部署和监控深度学习处理任务。 |
AI深度学习平台资源包 | 1)提供机器视觉相关的AI深度学习案例资源包,包括基于卷积神经网络(CNN)的猫狗分类、手势识别、车牌识别、光学字符识别、目标检测、焰火识别等; 2)提供自然语言处理相关的AI深度学习案例资源包,包括基于循环神经网络(RNN)和长短期记忆神经网络(LSTM)的文本分类、文本摘要、词向量、文本情感分析等; |
AI数据爬虫工具 | 1)支持分布式多节点多线程的网络数据爬取,提高海量数据的网络爬取速度; 2)提供数据爬取项目管理功能和Web界面,支持定时启动数据爬取,自动进行增量数据爬取,并对数据爬取过程进行监控; 3)提供WebUI界面,方便对爬虫爬取的页面数据进行在线调试; 4)支持使用PhantomJS,可以爬取JavaScript动态页面数据; 5)支持网站登录用户和密码的设置,提供网站验证码识别接口,可以集成网站验证码识别功能; 6)提供相应的数据存储驱动,支持Oracle、MySQL、SQL Server、MongoDB、HBase等后台数据库以存储爬取的数据; 7)支持CSS选择器,使用类似于jQuery选择器的方式,对爬取数据的元素进行解析获取; 8)支持基于Windows和Linux操作系统的部署和运行。 |
AI数据模拟工具 | 1)提供千万级以上的模拟数据快速生成功能; 2)支持多种格式的模拟数据生成,包括字符串、数值型、日期型、时间型、枚举型等数据格式; 3)提供多种数据模拟生成规则,包括指定序列循环生成、指定序列随机生成、数值范围随机生成、数值范围指定概率生成、日期范围随机生成、日期范围概率生成,以及使用当前日期、当前时间戳等方式; 4)提供数据模拟配置编辑功能,用户采用Excel表格对需要生成的数据项格式、生成规则、分隔符、数据存储方式、生成数据量等参数进行修改; 5)模拟数据存储支持文本文件、CSV文件和数据库存储; 6)支持基于Windows和Linux操作系统的部署和运行。 |
AI数据标记工具 | 1)图片标注提供各种格式图片加载、预处理和在线标注功能,支持图片格式包括:BMP、JPEG/JPG、PNG、GIF、TIFF等; 2)图片标注操作包括:点标注、圆形标注、矩形框标注、不规则形状标注; 3)提供MP4等多种格式视频文件的标注功能,包括从视频中提取图片、选择标注区域,并使用文本进行视频标注; 4)标注成果数据支持JSON文件格式,可自动进行图像分割并转换为VOC格式; 5)文本实体类型标注:根据文本所属领域,对文本实体(包括单词、短语或段落)及逆行类型标注; 6)文本词性标注:对文本单词进行词性标注,如标注为名词、代词或动词等; 7)文本情感倾向性标注:根据预设的文本情感倾向性,对文本进行情感倾向性标注; 8)文本关系标注:选择多个文本实体,进行关系标注。 |
AI数据可视化工具 | 1)提供多种Web图表框架,支持HiChart和ExtJS图表,提供散点图、柱图、线图、饼图、气泡图、雷达图等多种常见数据图表; 2)提供数据仪表舱(Dashboard)功能,用户可以选取不同主题的数据图表,组合成所需的数据仪表大屏; 3)支持多种数据源,包括Oracle、MySQL、SQL Server、HBase、Hive等数据源,提供数据实时监控功能; 4)提供数据挖掘分析模型管理功能,支持Python和R数据挖掘分析功能,提供常见的机器学习模型,包括线性回归、决策树、逻辑回归、朴素贝叶斯、支持向量机、K近邻、K均值聚类等; 5)提供联机分析处理(OLAP)引擎,支持对数据进行切片、下钻、上卷、旋转等操作,实现面向业务主题的在线数据分析; 6)提供在线地图展示功能,可以基于在线地图进行要素定位和数据展示; 7)提供网络分析功能,可以进行社交网络分析操作; 8)提供用户校验和授权管理功能,提供基于OAuth的单点登录(SSO)集成接口,方便集成到用户现有用户管理系统; 9)提供自助分析功能,用户可以自行选择不同数据源,采用不同数据挖掘模型,进行自定义数据分析; 10)支持基于Windows和Linux操作系统的部署和运行。 |
AI机器/深度学习算力平台能够满足人工智能专业云计算、大数据、机器学习、深度学习、神经网络等课程的教学和科研。
AI机器/深度学习算力平台可完成的主要课程如下:
课程名称 | 课程内容 | 课程大纲 | 出版教材/推荐教材 |
《机器学习与深度学习》 | 本课程介绍了神经网络与深度学习的发展历史,详细分析了深层神经网络各种架构的原理和实现,同时提供各种深度学习应用案例,使学生在理论学习的基础上,掌握深度学习的应用基本技能,为人工智能的应用开发打下坚实的基础,使学生能够熟悉人工智能的核心技术,并具备人工智能的应用开发实践能力。 | 1. 机器学习算法与应用(机器学习开发框架、监督式机器学习算法(一)、监督式机器学习算法(二)、非监督式机器学习算法) 2. 深度学习开发框架(TensorFlow、PyTorch、MXNet、CNTK、PaddlePaddle) 3. 神经网络与深度学习(卷积神经网络、循环神经网络、对抗神经网络、自编码器和深度信念网络、深度强化学习) 4. 深度学习应用案例(智慧农业病虫害监控、智慧交通信号灯优化) | 内部教材(待完成),预计出版时间2022-02-01前 |
《大数据处理技术》 | 本课程整合了大数据技术的原理、框架和应用各方面知识,提供给学生一个大数据技术和应用体系的全景视图,使学生了解大数据处理的全过程,熟悉大数据平台的架构原理和运行维护,同时通过大数据技术的各种实际应用案例,使学生掌握大数据处理实际过程中的各种工具的用法,培养学生应用大数据技术,解决实际问题的能力。 | 1. 大数据平台Hadoop(Hadoop平台介绍、HDFS分布式文件系统、MapReduce并行计算框架、YARN分布式调度框架、HBase分布式数据库、Hive数据仓库、) 2. 分布式计算框架Spark(Spark框架介绍、SQL数据处理、Streaming流数据处理、MLlib机器学习、GraphX图计算) 3. 大数据处理流程(数据采集、数据存储、数据分析、数据展示) 4. 大数据处理工具(数据爬虫工具、数据标记工具、数据模拟工具、数据可视化工具) | 内部教材(待完成),预计出版时间2022-02-01前 |
¥29.8
¥9.9
¥59.8