-
Spark研究笔记:核心概念可视化
所属栏目:[大数据] 日期:2021-06-05 热度:156
对于在分布式系统上背景知识较少的人来说,学习Spark并非易事。 即使我已经使用Spark已有一段时间了,但我发现全面了解Spark中的所有核心概念仍然很耗时。 Spark的官方文档提供了非常详细的解释,但更多地侧重于实际编程方面。 同样,大量的在线教程可能会让[详细]
-
网络安全大数据时代的叫喊
所属栏目:[大数据] 日期:2021-06-05 热度:93
如今在信息量与应标记采取行动之间存在一个临界点,尤其是在网络安全方面。 显然,人们知道得越多,就越有见识。但是,在信息量和应该标记采取行动之间存在一个临界点,尤其是在网络安全方面。随着企业变得更加数据驱动和自动化,IT系统已经变得越来越难以监[详细]
-
中信银行事件不断发酵,是谁让我们变成透明人?
所属栏目:[大数据] 日期:2021-06-05 热度:185
池子认为,中信银行这一行为侵犯了自身权益,目前已通过律师发函要求中信银行、笑果文化赔偿损失并公开道歉。 7日,中信银行已就泄露个人账户交易信息一事向池子道歉,并按照规定对相关员工予以处分,但中信银行的这一做法似乎并没有消灭网友的怒气。此事成[详细]
-
数据分析师还能热门到什么时候?
所属栏目:[大数据] 日期:2021-06-05 热度:170
行业视角 伴随着智能化时代的到来,数据也呈现出爆炸性增长,如何利用数据产生价值成为一个迫切的问题。数据的充分利用,一方面体现在基于数据实现人工智能(算法工程师),主要集中在图片、文本、语音识别,人工智能的高端代表就是自动驾驶。另一方面,是使用[详细]
-
如何为大数据项目做好准备:成功制定战略的6个重要点
所属栏目:[大数据] 日期:2021-06-05 热度:68
1. 对当前和将来的业务问题有透彻的了解,期望数据能为企业带来答案。 了解要应用大数据分析的业务领域可以为数据建立业务环境,并有助于制定数据收集和执行策略。此阶段的目标是确定企业中哪些数据与关键业务问题相关,哪些无关。企业还可以随着业务需求的[详细]
-
10W阅读,万人点赞,这套大数据平台建设技巧论,到底有什么干货
所属栏目:[大数据] 日期:2021-06-05 热度:144
今天给大家分享一套方法论,累计10W+阅读,1W+点赞的大数据平台建设方法论。 在数据平台建设的前期来说,做大数据平都是为了日后的数据分析来做基础的。那样就一定要规划出适合企业的方案。根据目前国内大部分企业或者单位的我们可以大致分为几类: (1)目[详细]
-
加强大数据时代个人隐私保护
所属栏目:[大数据] 日期:2021-06-05 热度:121
打开购物网站,后台根据用户的搜索记录精准推送商品;登录社交平台,广告投放定向植入;注册电子会员,逢年过节都能收到祝福和问候大数据时代,人们享受数据带来的便利,也面临个人信息被泄露的风险。如何更好地规避信息泄露风险,是全国政协委员、重庆静昇律[详细]
-
Python数据详解:探索性分析
所属栏目:[大数据] 日期:2021-06-05 热度:74
一、描述性统计分析 Excel里可以用【数据分析】功能里的【描述统计】功能来查看数据集常用的统计指标,但这里只能是对数值型的数据进行统计。 Python数据分析:探索性分析 pandas里可以用describe方法对整个数据集做一个描述性统计分析,当然这里也只是对数[详细]
-
你知道Kafka和Redis的各自好与坏吗?一文带你优化选择
所属栏目:[大数据] 日期:2021-06-05 热度:198
Redis是什么 Redis 是开源免费的,遵守BSD协议,是一个高性能的key-value非关系型数据库。可能有朋友会问,Redis作为存储数据库,怎么和分布式发布订阅消息系统Kafka对比?两者本身不是同一个层次的东西[详细]
-
如何认识大数据对企业融资的作用
所属栏目:[大数据] 日期:2021-06-05 热度:149
大数据融资有很多好处。企业需要融资才能保持业务正常运转。幸运的是,大数据使其比以往任何时候都更加高效。 企业融资可以为其带来许多机会。正确的融资渠道将使企业能够购买所需的设备,保持业务的持续发展,并有机会将业务扩展到需要的地方。在此将讨论大[详细]
-
实战|Python数据详解可视化并打包
所属栏目:[大数据] 日期:2021-06-05 热度:137
数据与需求说明 今天分享的案例来源于一个著名的实验Cell Counting Kit-8。首先我们来看下原始数据: 实战|Python数据分析可视化并打包 我们需要完成的工作主要有四块: 去除各组所有重复中的最大值和最小值 所有数据根据D0的对应分组进行标准化 计算各组数[详细]
-
大数据时代,主要看新一代计算引擎Spark和Flink成王败寇
所属栏目:[大数据] 日期:2021-06-05 热度:160
前言 做大数据绝对躲不过的一个热门话题就是实时流计算,而提到实时流计算,就不得不提 Spark 和 Flink。Spark 从 2014 年左右开始迅速流行,刚推出时除了在某些场景比 Hadoop MapReduce 带来几十到上百倍的性能提升外,还提出了用一个统一的引擎支持批处理[详细]
-
HDFS原理 | 一文了解HDFS架构与设计
所属栏目:[大数据] 日期:2021-06-05 热度:187
1 前言 HDFS(Hadoop Distributed File System)是我们熟知的Hadoop分布式文件系统,是一个高容错的系统,能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS以流式数据访问模式存储超大文件,将数据按块分布式存储到不同机器上, 并被设计成 适合[详细]
-
MySQL如何达成Excel分组排序功能?
所属栏目:[大数据] 日期:2021-06-05 热度:122
Excel中分组排序只需要对数据进行升序降序,再利用if函数添加排序序号,即可筛选出分组top数据。 Oracle也有row_number()函数对数据进行分组排序,而MySQL并没有此类函数,那么如何在MySQL中对数据进行分组排序呢? 下面介绍如何利用用户变量进行分组排序并取[详细]
-
医疗行业正从大数据中汲取回报的六个门路
所属栏目:[大数据] 日期:2021-06-05 热度:99
1、 提高治疗成功率 现代医学每一年都在发展和改进,而大数据是每一天都在为医生们提供改善。 来自数据的信息可以让医生做出更准确的治疗决策。即使患者的病症很少见甚至是无法观察出来的,但大量信息仍然可以帮助医生正确地制定解决方案。 例如,Concentric[详细]
-
4个简单方法,可提高您的Apache Spark工作性能
所属栏目:[大数据] 日期:2021-06-05 热度:95
介绍 在开发Spark应用程序时,最耗时的部分之一是优化。 在此博客文章中,我将提供一些性能提示,以及(至少对我而言)启动时可能会使用的未知配置参数。 因此,我将介绍以下主题: 多个小文件作为源 随机分区参数 强制广播Join 分区vs合并vs随机分区参数设置[详细]
-
大数据分析及其对供应链的作用
所属栏目:[大数据] 日期:2021-06-05 热度:127
数据在数量上、种类上和速度上都有所增长,如果以正确的方式加以利用,可以带来巨大的价值。 研究显示,企业已经在推动整个企业供应链的生产力,但在供应链功能中使用大数据分析在全球企业中并不普遍或协调得很好。受益于大数据分析的公司有三个共同点:它们[详细]
-
工信部:抓紧工业大数据产业发展
所属栏目:[大数据] 日期:2021-06-05 热度:138
工信部要求,要按照高质量发展要求,促进工业数据汇聚共享、深化数据融合创新、提升数据治理能力、加强数据安全管理,着力打造资源富集、应用繁荣、产业进步、治理有序的工业大数据生态体系。 工信部将统筹建设国家工业大数据平台。建设国家工业互联网大数据[详细]
-
Excel还不会数据清洗?这四大类函数介绍你哦
所属栏目:[大数据] 日期:2021-06-05 热度:65
数据截取类 数据截取类函数主要功能为从文本中提取需要的字符串,主要包括left、right、mid函数。 1、left函数 功能:从一个文本字符串的第一个字符开始,返回指定个数的字符 语法:left(要提取字符的字符串,提取长度) 示例: Excel还不会数据清洗?这四大[详细]
-
大数据可以将我们拖到另一个AI冬天?
所属栏目:[大数据] 日期:2021-06-05 热度:81
现在,当然,情况已经改变。 计算是随时可用的。 我们正在研究数据。 政府正在投资研究。 大学生正在研究机器学习。 媒体报道了AI,这是技术的下一次巨变。 一切似乎都朝着未来的趋势发展,在这种情况下,人工智能已经相当普遍,公众也理解并接受了它的承诺[详细]
-
防止数据分析灾难发生的6个技巧
所属栏目:[大数据] 日期:2021-06-05 热度:132
数据分析对公司来说是非常有价值的,它可以提供对数据的深刻见解,而这些见解原本可能是不可见的。 正因为如此,数据分析也继续吞噬着IT预算的很大一部分。据2020年的CIO状况调查显示,37%的IT主管表示,数据分析也将继续推动公司今年的IT投资,是最高的单一[详细]
-
企业能利用大数据算法建立灵验的链接吗?
所属栏目:[大数据] 日期:2021-06-05 热度:106
为了使企业的有效链接构建策略适应大数据算法,必须了解这两个概念实际上是如何相互关联的: 有效链接构建是指链接构建策略,该策略优先使用面向用户和场景优先的方法来获取反向链接。有效链接构建可推动用户制作独特的内容,以解决用户的顾虑,同时为企业和[详细]
-
详解成熟度模型:阻碍数据科学团队发展的“罪魁祸首”
所属栏目:[大数据] 日期:2021-06-05 热度:136
分析成熟度模型令人无法抗拒 人们太偏爱这种模型了,主要原因有以下几个: (1) 它的比喻是吸引人且能引发共鸣的。这就像是一个孩子在成长。首先学着爬,其次是走,最后是跑。与会者很容易理解这种比喻,并表示赞同。 (2) 其格式与新闻记者使用的经典5W1H技巧[详细]
-
Spark:大数据产品的一种测试方法与达成
所属栏目:[大数据] 日期:2021-06-05 热度:82
ETL能兼容各种不同的数据(不同的数据规模,数据分布和数据类型) ETL处理数据的正确性 测试数据兼容 ETL是按一定规则针对数据进行清洗,抽取,转换等一系列操作的简写。那么一般来说他要能够处理很多种不同的数据类型。 我们在生产上遇见的bug有很大一部分占[详细]
-
分页显示大数据,原来技巧这么多,快来学几个
所属栏目:[大数据] 日期:2021-06-05 热度:163
有一个表,有几十万行数据,但是我其实只想看一部分,怎么办呢? 有没有像网页预览那样,一个页面只显示固定条数,可以翻页呢?--雨夜又遇到问题了 别着急,我给你来三个方法,搞定这个事情,从简单公式,到代码到数据库语言SQL方法,今天全部给你分析一遍 01[详细]
