搜索
搜 索
本版
文章
帖子
用户
图文精华
hadoop-2.6.0+zookeeper-3.4.6+hbase-1.0.0+hive-1.1.0完全分布 ...
首页
Portal
专题
BBS
面试
办公|编程助手
更多
登录
注册
用户组:游客
主题
帖子
云币
我的帖子
我的收藏
我的好友
我的勋章
设置
退出
导读
淘贴
博客
群组
社区VIP
APP下载
今日排行
本周排行
本周热帖
本月排行
本月热帖
会员排行
About云-梭伦科技
»
专题
›
技术学习(版主发帖区)
›
AI学习
›
介绍解说
›
使用深度学习模型生成合成数据
0
1
0
分享
使用深度学习模型生成合成数据
nettman
2023-2-23 23:07:25
发表于
介绍解说
[显示全部楼层]
只看大图
阅读模式
关闭右栏
1
2567
不可否认,21世纪最大的资源是数据——数据通常被称为第四代工业;只有公司采用这种模式收集数据,并利用数据做出明智决策的公司,才会蓬勃发展。但是收集数据和进行实验并不像听起来那么简单,大多数中等公司没有存储可扩展数据的基础设施或资源。在大多数情况下,当您必须在没有可扩展数据的情况下测试机器学习/人工智能模型时,我们必须使用机器学习生成合成数据。在一些用例中,公司之所以生成合成数据,是由于它希望对数据保密。
使用合成数据仓库生成合成数据
合成数据仓库(SDV)是一个生成合成数据的生态系统,允许用户通过了解单表、多表、文本和时间序列数据集,轻松创建合成数据。SDV使用概率图形模型和深度学习技术来生成合成数据。
在我们的场景中,我们将使用高斯连接函数(Gaussian Coupla)来生成合成数据——高斯连接函数是一种方法,我们通过使用协方差矩阵来生成多变量随机变量。
下面是安装和导入高斯连接函数实例的代码:
为了使实例拟合高斯连接函数,不妨将通用数据集导入到笔记本(notebook),我们不妨从kaggle下载保险索赔数据集。该数据集具有分类、连续和自由的文本数据,因此我们可以看到SDV库的有效性/范围。
我们可以从上图中看到,该保险索赔数据的数据类型有object、int64和float64这几种。
将数据集拟合到高斯连接函数实例中,生成10万个样本:
不妨为生成的合成变量检查数据类型:
只需观察原始数据和生成的合成数据之间的数据类型;它们完全匹配,这表明SDV运行起来有多高效。
不妨更进一步,使用table_evaluator库来比较真实数据集和合成数据集:
真实数据和虚假数据的对数均值和标准偏差比较
真实数据和虚假数据变量比较的示意图:
我已经加入了一些选定变量的视觉元素——为44个变量生成的完整报告相当全面,这里仅显示部分。
我们从上面图表中可以看到SDV生成分类和规范化连续变量的功能有多强大。
咱们还是编程吧,生成合成数据,并使用它训练机器学习模型及更多!
最新经典文章,欢迎关注公众号
加微信w3aboutyun,可拉入技术爱好者群
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
显身卡
已有(1)人评论
电梯直达
正序浏览
lynx99
发表于 2023-2-24 09:33:10
感谢分享
回复
使用道具
举报
显身卡
还有一些帖子被系统自动隐藏,点此展开
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
发表新帖
nettman
超级版主
关注
2910
主题
3203
帖子
478
粉丝
TA的主题
避坑大厂基础架构
4 天前
Flink CDC:新一代实时数据集成框架
4 天前
蚂蚁面试就是不一样
4 天前
招聘1万人
2024-11-21
为何大厂开发者纷纷抛弃小仓,转向大仓monorepo?
2024-11-21
24小时热文
kafka面试题精选
Nebula Flink Connector 在实时 ETL 的实践
Apache Doris 用户案例集
国家电网公司主数据管理系统技术规范
企业的主数据建设方法论与实践
关闭
推荐
/2
中文版ChatGPT
1.无需魔法 2.提高编程效率 3.提高文档能力
查看 »
新手帮助
新手帮助:注册遇到问题,领取资源,加入铁粉群,不会使用搜索,如何获取积分等
查看 »
意见
反馈