数据仓库与数据挖掘(下)
第五章 数据挖掘基础数据挖掘又称为数据库中的知识发现(knowledge discovery in database,KDD),它是一个利用人工智能,机器学习和统计学等多学科理论分析大量的数据,进行归纳性推理,从事务数据库、文本数据库、空间数据库、多媒体数据库、数据仓库以及其他数据文件中提取正确的、新颖的、有效的以及人们感兴趣的知识的高级处理过程。数据挖掘的任务是从大量的数据中发现对决策有用的知识,发现数据特性以及数据之间的关系,这些知识表现为概念、规则、模式和规律等多种形式。
1、数据挖掘基础(1)概念数据挖掘不是验证某个假设的正确性,而是在数据中寻找未知模式,本质上是一个归纳学习的过程。数据挖掘是一门涉及面很广的交叉学科,融合了模式识别、数据库、统计学、机器学习、粗糙集、模糊数学和神经网络等多个领域的理论。数据挖掘有一些替代词,如数据库中的知识发现、知识提炼、模式识别、数据考古、数据捕捞和信息获取等。由于“数据挖掘”能表现“挖掘”的本质,因此在学术界和企业界被广泛应用。
概括而言,数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取正确的、有用的、未知的、综合的以及用户 ...
数据仓库与数据挖掘(上)
本来不是很想做这个文档,因为一开始以为这个课的主体是数据仓库,而之前我在Little Tips专题中做过关于离线数仓的完整流程,所以本来不准备进行补充了,但是上到一半发现这个课的主体居然是数据挖掘。。。emmmm所以这个学期所有的课程都需要学习数据挖掘的样子。(商务智能、Spark MLlib、机器学习和这个)刚巧备考商务智能的时候发现数据挖掘的内容挺多的,所以做来做去拆拆合合,还是捣鼓成两个文档了,数据仓库的部分就在文档就在下面;数据挖掘的部分就在另外一个文档。
第一章 数据仓库的概念和体系结构
很多基本概念在各种小文章中都有提及,所以如果有没有涉及的点,大概率是我在其他的文章中有过介绍,或者我觉得可能这已经是常识了。供大家自行补充。
1、数据仓库的基本概念(1)元数据(metadata)元数据是数据仓库不可或缺的重要部分,它是描述数据仓库中数据的数据。它可以帮助用户方便快速地找到所需的数据;元数据是描述数据仓库中数据结构和构建方法的数据。
对元数据的分类按照应用场合可以分为数据元数据和过程元数据。数据元数据又可以称为信息系统元数据,信息系统使用元数据对数据源进行描述,以按照用 ...
过去2023/6/18未来
今天是我21岁生日,突发奇想想对我大学生活想做而又不敢做、想做而又做不到的事进行一个总结,顺便从我当前的视角剖析了我的心理状态,也许过几年会显得十分幼稚。但当下,这就是我最真实的写照。主要讲讲我对专业的理解,以及目前我的状态。已经能预想到过几年我看到这段文字的时候爆笑到止不住发抖了。
首先是我的专业,数据科学与大数据技术,如果说现在的我迷茫与踌躇,那么有一半至少和我的专业挂钩。如果可以,我愿意称它为两个专业——“数据科学”与“大数据技术”。数据科学是偏数学性质的,我们专业主要开设的课程有:算法设计与分析、机器学习、计算智能、人工智能导论和最优化理论;大数据技术,顾名思义,就是研究大数据的技术,我们主要开设的课程有大数据平台基础(Hadoop生态体系)、大数据存储技术(分布式存储)、Spark数据分析、Python数据分析、数据仓库与数据挖掘还有未来还没上的课。
正如我对他们的介绍,这两个方向几乎是完全割裂的,数据科学集中在对算法、流程进行优化,例如最近的ChatGPT当然,其主要是强化学习生成式AI方向,不过套用我最近听到学长的一套理论:Open CV让计算机“看到”世界;机器学习让计 ...
商务智能
前言:
本文档的1、2、5、6章是老师考试要求的范围(我们这届),第五章因为范围比较大,老师上课也没有讲,所以准备单独做一个文档出来,正好《数据仓库与数据挖掘》的重点也是数据挖掘,就一起合并到那个文档中了。
其余的章节是我自己课余时间看完的,做了一个简单的摘要,清华的书还是挺有意思的,作为兴趣爱好可以推荐大家有时间去看看。
第一章 商务智能概论1、商业决策需要商务智能(1)数据、信息与知识数据是记录、描述和识别事物的符号,通过数据有意义的组合可表达现实世界中某种实体的特征。数据多表现为简单的事实。数据也成为记录、案例、样本等。数据用属性描述,属性也成为变量、特征、字段或维等。
数据经过解释后可以转换为有用的信息,信息是经过某种提炼、加工和集成后的数据。信息是可以被人们理解和解释的,对不同的人可能价值不同。
数据和信息虽然不等同,却也是密不可分的。概括地讲,数据是信息的载体,而信息是对数据的解释。
知识就是对信息内容进行的提炼、比较、挖掘、分析、概括、判断和推论。知识分为事实性知识和经验知识:事实性知识是人类对客观事物和现象的认识结果;经验知识多是一种隐性知识,是存储在人们大脑中的经 ...
从ResNet入门卷积神经网络
众所周知数据科学与大数据技术实际上是以科研性质的的数据科学和纯技术力的大数据技术组成,学一半尚且非常吃力,而我又偏偏选了大数据技术方向。但是学历太低了,大数据技术也找不到工作,刚巧老师布置了个小论文的作业,趁着五一假期,从零点一(毕竟就算有意不学,但多少还是耳目渲染了点)开始恶补数据科学部分。
拿到选题之前,我连ResNet是什么都不清楚,放以前应该是照着书猛看,但是现在有ChatGPT和NewBing等人工智能了,所以优先找它了解一些情况比较迅速。事实证明我是对的,我让NewBing给我列了个论文提纲和目录,一下子就把学习方向明了了。回答如下:
12345678910111213141516## 摘要深度神经网络在图像分类等任务上取得了显著的效果,但是随着网络层数的增加,训练和优化变得越来越困难。为了解决这个问题,本文介绍了一种深度残差网络(ResNet),它通过引入残差学习的机制,使得网络可以更容易地拟合恒等映射,从而避免了梯度消失和退化问题。本文详细分析了ResNet的原理和结构,并在CIFAR-10数据集上进行了实验,结果表明,ResNet可以有效地提高分类准确率,并且具有较低 ...
Spark从0到1(下)
第四章 Spark Streaming:流计算1、概述(1)流计算流数据是一组顺序、大量、快速、连续可达的数据序列,可被视为一个随时间延续而不断增长的动态数据集合。具有以下特点:
数据实时到达
数据到达次序独立,不受应用系统控制
数据规模宏大且不能预知其最大值
数据一经处理,除非特意保存,否则不能被再次取出处理,如果再次提取数据则代价昂贵
(2)批处理与流处理根据数据处理的时效性,大数据处理系统可分为批大数据处理系统和流大数据处理系统两类。
批处理
批处理主要操作大容量静态数据集,并在计算过程完成后返回结果。批处理模式中使用的数据集通常符合下列特征:
有界,批处理数据集代表数据的有限集合
持久,数据通常始终存储在某种类型的持久存储位置中。
量大,批处理操作通常是处理极为海量的数据集的唯一方法。
批处理非常适合需要访问全套记录才能完成的计算工作,例如在计算总数和平均数时,必须将数据集作为一个整体加以处理。
流处理
流处理系统会对随时进入系统的数据进行计算。相比批处理模式,这是一种截然不同的处理方式。流处理方式无须针对整个数据集执行操作,而是对系统传输的每个数据项执行操作。
...
Spark从0到1(上)
前言:
这是结合书本和尚硅谷大数据课程的综合Spark入门文档,去除了大部分实操过程以追求在理论上一文解决所有疑惑。原书的第二章是Scala基础编程,但是如果真的想要使用Scala进行Spark工程开发的话,建议去单独学习下Scala(很多语言特性还是比较有意思的)。所以Scala的部分并不在《Spark从0到1》这篇文档中,之后会单独开一篇文档记录Scala的语言及面试重点。
由此,开始这篇文档默认已经入门Scala了。内容过多会分为上下两部分,上部分主要介绍Spark Core和Spark SQL,下部分主要介绍Spark的其他生态,主要是Streaming,GraphX和MLlib酌情考虑。
第一章 Spark概述1、Spark是什么?
Spark 是一种由 Scala 语言开发的快速、通用、可扩展的大数据分析引擎
Spark Core 中提供了 Spark 最基础与最核心的功能
Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL,用户可以使用SQL 或者 Apache Hive 版本的 SQL 方言(HQL)来查询数据。
Spark ...
Flume从0到1
简单介绍下Flume日志采集系统,内容不多大概一天就学完了,但是正所谓学得快忘得也快,所以把其中一些常用的、配置类的内容进行一个记录,方便每次温习。
第一章 Flume概述1、定义Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume 基于流式架构,灵活简单。
2、基础架构
(1)AgentAgent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的。 Agent 主要有 3 个部分组成,Source、Channel、Sink。
(2)SourceSource 是负责接收数据到 Flume Agent 的组件。Source 组件可以处理各种类型、各种 格式的日志数据,包括 avro、thrift、exec、jms、spooling directory、netcat、taildir、 sequence generator、syslog、http、legacy。
Arvo是一种数据序列化系统,它是流式处理领域中常用的数据序列化系统之一。它支持多种编程语言,包括Java、Python、C、C++和C#等。Avro格式的 ...
离线数仓总结(下)
第三章 电商业务介绍1、简介电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。
当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,登录后对商品进行结算,这时候购物车的管理和商品订单信息的生成都会对业务数据库产生影响,会生成相应的订单数据和支付数据。
订单正式生成之后,还会对订单进行跟踪处理,直到订单全部完成。
电商的主要业务流程包括用户前台浏览商品时的商品详情的管理,用户商品加入购物车进行支付时用户个人中心&支付服务的管理,用户支付完成后订单后台服务的管理,这些流程涉及到了十几个甚至几十个业务数据表,甚至更多。
2、常识概念SKU(Stock Keeping Unit,库存量基本单位):现在已经被引申为产品统一编号的简称,每种产品均对应有唯一的SKU号。
SPU(Standard Product Unit):是商品信息聚合的最小单位,是一组可复用、易检索的标准化信息集合。
简单说明就是商品是SKU,商品含属性是SPU,例 ...
离线数仓总结(上)
第一章 数据仓库的概念及架构选型数据仓库(Data Warehouse),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。
1、数据仓库的输入数据业务数据就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据。业务数据通常存储在MySQL、Oracle等数据库中。
用户行为数据用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。比如页面浏览、点击、停留、评论、点赞、收藏等。用户行为数据通常存储在日志文件中。
爬虫数据通常是通过技术手段获取其他公司网站的数据。不建议同学们这样去做。
通常来说,业务数据就是后端持久化到数据库的日志记录,例如Mysql的Binlog日志;用户行为数据主要是前端进行埋点采集到的数据,嗯,简单让new bing来介绍下采集流程吧:
前端埋点到大数据采集的完整流程包括数据采集层、数据接入层、数据处理层、数据应用层这四个层次。在数据采集层,可以通过传统的埋点方式,在需要上报的位置组织数据、调用API、将数 ...