自学内容网 自学内容网

【数据处理】大数据入门

🌈 个人主页:十二月的猫-CSDN博客
🔥 系列专栏: 🏀软件开发必备知识_十二月的猫的博客-CSDN博客

💪🏻 十二月的寒冬阻挡不了春天的脚步,十二点的黑夜遮蔽不住黎明的曙光 

目录

1. 前言

2. 大数据

2.1 定义

2.2 大数据的界限

2.3 大数据特点(4V)

3. 数据科学

3.1 定义

3.2 数据处理过程

4 数据分类

4.1 结构化数据

4.2 半结构化数据

4.3 非结构化数据

5. 数据库 

5.1 关系型数据库

5.2 非关系型数据库

5.2.1 题目1:

6. 总结 


1. 前言

本系列专栏·数据处理·针对于我们在处理人工智能问题中遇到的有关数据方面的问题。专栏可能涉及数学原理、代码应用、理论讲解等。

2. 大数据

2.1 定义

定义1:大数据是一种数据规模大到在数据的获取管理,存储处理,分析计算都远远超过传统数据库软件工 具处理范围的数据集合

定义2:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科)

2.2 大数据的界限

  • 简单查询。数据量为TB至PB级称为大数据
  • 复杂查询。数据量为GB至TB级称为大数据

PB是大数据层次的临界点 

大数据的定义需要考虑数据查询与分析的复杂程序 

2.3 大数据特点(4V)

高时效性:1秒定律

高价值:价值巨大但价值密度低

高数据量:PB称为大数据层次的临界点

高类型数量:关系数据库数据、音频视频数据、结构化数据等

3. 数据科学

1、数据是人工智能的基石

2、数据是基础

3.1 定义

基于传统的数学,统计学的理论和方法,运用计算机技术进行大规模的数据计算,分析,应用的学科。

3.2 数据处理过程

采集,表示与存储,预处理(清洗,集成等),建模分析,可视化,决策

4 数据分类

4.1 结构化数据

可以使用关系型数据库表示和存储的数据,拥有固定结构。

结构化数据能够被数据库存储,因为有严格的数据结构和格式的要求 。因此用树结构、通过SQL语句就可以完成存储。

4.2 半结构化数据

弱结构化数据,虽然没有关系型数据库那么严格的结构要求,但是也存在一定的结构。如XML、JSON

4.3 非结构化数据

没有固定数据结构,没有统一格式。如文本、图片、视频、音频等

5. 数据库 

数据:

数据是数据库中存储的基本对象,描述事物的符号记录称为数据。数据的含义称为数据的语义,数据与其语义是不可分的。

数据库(DB):

是长期储存在计算机内、有组织的、可共享的大量数据的集合

数据库管理系统(DBMS):

DBMS是一个大型复杂的基础软件系统,位于用户与操作系统之间的一层数据管理软件。DBMS能够科学地组织和存储数据、高效地获取和维护数据。
DBMS具有数据定义(提供数据库定义语言DDL),数据组织、存储和管理(提供数据操作语言DML),数据库的事务管理和运行管理(安全性等),数据库的建立和维护等功能。

数据库系统(DBS):

数据库系统由数据库、数据库管理系统(及其应用开发工具)、应用程序、数据库管理员四部分构成。

常见数据库:

关系型:MySQL,Oracle

非关系型:Redis,Mongo,Neo4j,Hbase等

5.1 关系型数据库

严格数据结构、格式

1、用二维表数据结构(关系)存储,关系满足一定范式

2、用SQL统一格式统一处理数据

3、SQL类型:DDL、DML、DCL、DQL

类别一:Data Definition Language (DDL) 数据定义语言(create,delete等)

DDL:定义各种表结构

创建: 

create table studeng (
    sid char(20),
    cid char(20);
)

删除: 

drop table tb1;

修改: 

alter table test4_02
add avg_score numeric(3,1)

类别二:Data Manipulation Language (DML) 数据操作语言(增删改查)
增:

Insert into Students(sid,name,login,age,gpa)
values('111','smith','smith@qq',11,3.3)

删: 

delete from Student S
where S.name='Smith'

改: 

update test4_01 S
  set sum_score=(
    select sum(score)
    from pub.student_course T
    where S.sid=T.sid
  )

类别三: Data Control Language(DCL):数据控制语言,用来定义访问权限和安全级别

类别四:Data Query Language(DQL):数据查询语言,用来查询记录(数据) 

【数据库】数据库精选题(三)(SQL语言精选题)(按语句类型分类)_sql高级题目选择题-CSDN博客

优点:

1、数据结构化,管理效率高

2、用户只需指出干什么,不必仔细说怎么干

3、对于事务的支持,有高一致性

5.2 非关系型数据库

NoSQL:非关系型数据库

典型代表有:Redis,Mongo,Neo4j,Hbase

因为本人也没有仔细深入学过NoSQL,所以这里不做展开。

仅仅针对考试题目做一个分析:

5.2.1 题目1:

why NoSQL?

分析:

1. 从数据结构化来说

随着大数据时代的降临,我们面对的不仅仅是结构化数据的存储,还有各种半结构化,非结构化的 数据。

从软件开发角度来说,前期需求不明确,非严格事务性的产品,可以使用NoSQL(MongoDB),因为传统 RDBMS更改表结构的代价较大,结构不灵活。

2. 从读写效率来说

传统RDBMS几乎所有操作都要过磁盘,这是为了保证事务特性带来的巨大开销;但这种开销在新 的Web 2.0中可能是不必要的,起码对于博客系统来说,两个用户短时间内看到的内容不完全一致 不会带来很大影响,所以NoSQL一个重要的思路就是降低一定的一致性【降低支持的事务等级】, 从而获得更高的读写效率,获得更高的可用性和分区容错。

传统RDBMS是不分区的,意味着不支持横向拓展,这会导致硬件上的IO瓶颈;分布式是应对高并 发的重要方案,NoSQL往往都对此提供了强大支持,有自动化分区服务等等。

3. 从海量数据下的查询(读写)来说

传统的RDBMS是行式存储,虽然方便插入数据。但是在没有加入索引时,相当不便于检索,而列式存储,检索效率更高。所以对于海量数据的查询、分析来说,NoSQL性能优于传统SQL处理。

集合运算在Redis上很轻松【内存式,结构简单,很快】,可以进一步提升海量数据的查询。传统的数据库都只能从磁盘中读取

NoSQL:

1、非结构化。可以存储的数据类型更多

2、列式存储。海量结构下的查询效率高

3、分布式。高并发读写性能

4、数据结构性低,耦合性低。修改数据结构代价小

6. 总结 

本文到这里就结束啦~~
如果觉得对你有帮助,辛苦友友点个赞哦~ 


原文地址:https://blog.csdn.net/m0_67656158/article/details/142831125

免责声明:本站文章内容转载自网络资源,如本站内容侵犯了原著者的合法权益,可联系本站删除。更多内容请关注自学内容网(zxcms.com)!