准备好您的数据在任何时间在所有
DataPreparator是一个工具,已经被设计为了帮助您的数据准备,数据分析和数据挖掘的共同任务。
的DataPreparator可以协助您以各种方式探索和准备数据之前,数据分析和数据挖掘。
它包括运营商,清洁,离散化,计数,缩放,属性选择,缺失值,异常值,统计,可视化,均衡,采样,行选择,和其他几个任务。
下面是一些主要特点“DataPreparator”:
一般:
·从文本
文件,关系数据库和Excel工作簿中的
神器出山:www.shenqi73.com数据访问
·处理大量的数据(因为数据集不存储在
计算机内存中,除Excel工作簿和一些数据库,数据库驱动程序不支持数据流的结果集)
·独立的工具,独立的任何其他工具
·用户友好的图形用户界面
·操作链接来创建序列预处理的转换(运算符树)
·测试/执行数据建立的模型树
数据清洗:
·字符去除
·文本替换
·日期转换
在数据集的列的属性运营商:
·删除/移动属性
·删除所选的属性
·移动选定的属性
·离散化数值属性
·宽度相等
·频率相同,
·从分组数据的频率相同,
·处理缺失值
·删除记录的缺失值
·删除属性包含缺失值的
·填补缺失值
·预测缺少valuues,从模型(Naive Bayes模型依赖树,)
·包括缺失值模式
·手柄离群
·Z评分法
·箱图法
·且具名义属性
·创建的二进制属性
·更换标称值指数
·减少数量的标签
·请指定数量的最常见的标签,并创建一个新的标签,从标签。
·尺度数值属性
·十进制
·线性
·双曲正切
·软最大
·Z-得分
·其它变换(日志(x)的,1 / x的,X2,X3)
·选择属性
·手动选择
·信息selecttion相互
·强大的互信息选择
记录行的数据集上的经营者:
·抽样(随机,每k个项目中,第一个-K)
·选择记录的关键
文件的实用程序创建新的文件:
·创建数据集
·创建丢失的值
·追加
·平衡
·更改名称
·合并
·排序
输出:
·统计
·表
·文件
·数据库
·可视化
可视化数字属性:
·条形图,累积频率图
箱线图(单,有条件的)
·Histogtram(单一的,有条件的,标准化的,重叠的,直方图矩阵)
·滞积
·线性回归图
·普通位数情节
·位数情节
·分位数 - 分位数图
·运行序列情节
·散点图
可视化标称(分类)属性:
·条形图,饼图
·帕累托图
·堆积图
数字和名义属性:
·依赖树
工具:
·从原始数据创建数据集
·创建从原始数据样本
·随机的原始数据
·配置数据库驱动程序
要求:
·
的Java