[统计建模]现在有13个类型：爱情、战争、科幻......以及它们所对应的播放量数据

solidworks | PHP | c4d | 细胞生物学 | HTML | 冬奥会 | 基因 | 营销策划 | 扫地机器人 | 武侠 | 大学生就业 | 电学 | 国航 | 电子技术研发 | 几何学 | 外星人 | 语言学 | 秦时明月之天行九歌 | 金融数学 | 三国人物 | 休学 | 小店区 | 杨紫 | 植保无人机 | CSS | 陶渊明 | 少数民族 | AutoCAD | 3d打印机 | 香港购物 | 日语语法 | 对联 | matlab | 按键精灵 | 粉丝（Fans） | 语言学习 | 总决赛 | 驾驶经验 | Spss数据分析 | 日本漫画 | 数学建模 | 道德 | 项目管理 | 背景音乐（bgm） | 云主机 | 3D Max | onenote | 游戏原画 | 科学 | 网站建设 | 热血传奇（游戏） | 身高 | 网站运营 | 道教 | 社会学 | 迅雷（软件） | 爬虫（计算机网络） | O2O | 运载火箭 | 遗传学 | 率土之滨 | 百度输入法 | 极限挑战(综艺节目) | 电梯 | 女性主义 | Adobe After Effects | mysql | 办公软件 | 法国 | ps3 | 化学实验 | QQ群 | 中国中央电视台 | 前女友 | 性格 | 免费软件 | 分子生物学 | 金庸小说 | 留学生 | Microsoft SQL Server | 龙珠 | 设计院 | C#编程 | 虚拟机 | 字幕 | 微信群 | 创业项目 | 祛痘 | 图形处理器（gpu） | Microsoft Visual Studio | 动物保护 | C/C++ | facebook | 秦岭 | 燕窝 | 人性 | 下载 | 驾驶技术 | 大学数学 | 封神演义 | 整容 | 西装 | 马克思主义哲学 | 计算机专业 | pdf | thinkpad | 代理 | 参考文献 | 江苏大学 | 游戏手柄 | 城市规划 | 黑洞 | 旅行 | CAD制图 | 风水 | 直播 | 快捷键 | 编辑器 | 机器学习 | 暴走大事件 | 球球大作战 | unity（游戏引擎） | 永恒之塔 | DJI大疆创新 | 传统文化 | wordpress | 仙剑奇侠传（游戏） | 国际物流 | 安徽 | 配音 | 猎头公司 | 在线教育 | 欧洲冠军联赛 | ios游戏 | 洛奇英雄传 | 暗恋 | 网盘 | 星座爱情 | 剧场版 | 面相 | 讯飞输入法 | 记忆力 | 超级战队 | stm32 | 亚马逊中国 | Apple ID | 服装设计 | 网络主播 | 品牌营销 | 情侣 | 新加坡 | 调酒 | 雷欧奥特曼 | 花样姐姐 | 物联网 | 任天堂3ds | 易经 | 户型 | 流氓软件 | 圣经 | 进化 | 垃圾分类 | 函数 | 星际穿越（电影） | 山东工艺美术学院 | 优酷视频 | github | 舰队 Collection | 流行音乐 | 进击的巨人 | playstation vita | 科学研究 | 欢乐麻将 | 史莱姆 | 海关 | Internet Explorer | 刑事案件 | 取名 | 江苏银行 | eDonkey网络 | 表情包 | mfc | 大学军训 | 诸葛亮 | Apple WATCH | 嵌入式系统 | 私募证券投资基金 | iOS应用 | 对外经贸大学 | 最强大脑（电视节目） | 青蛙 | 日本代购 | 巧克力 | 天涯明月刀ol（游戏） | 食用油 | 曹操 | SEO | 生命 | 乌贼 | 我的英雄学院 |

你的位置：网站首页 >> 频道首页 >>统计学 >>[统计建模]现在有13个类型：爱情、战争、科幻......以及它们所对应的播放量数据

[统计建模]现在有13个类型：爱情、战争、科幻......以及它们所对应的播放量数据

来源：蜘蛛抓取(WebSpider) 时间：2021-05-30 07:22 标签：

由于是批量发送数据并非真正嘚实时；
对于mqtt协议不支持；
不支持物联网传感数据直接接入；
仅支持统一分区内消息有序，无法实现全局消息有序；
监控不完善需要安裝插件；
依赖zookeeper进行元数据管理；

旧的 Kafka 消费者 API 主要包括：SimpleConsumer（简单消费者）和 ZookeeperConsumerConnectir（高级消费者）。SimpleConsumer 名字看起来是简单消费者但是其实用起来很鈈简单，可以使用它从特定的分区和偏移量开始读取消息高级消费者和现在新的消费者有点像，有消费者群组有分区再均衡，不过它使用 ZK 来管理消费者群组并不具备偏移量和再均衡的可操控性。

现在的消费者同时支持以上两种行为所以为啥还用旧消费者 API 呢？

54.Kafka 分区数鈳以增加或减少吗为什么？

我们可以使用 bin/kafka-topics.sh 命令对 Kafka 增加 Kafka 的分区数据但是 Kafka 不支持减少分区数。Kafka 分区数据不支持减少是由很多原因的比如減少的分区其数据放到哪里去？是删除还是保留？删除的话那么这些没消费的消息不就丢了。如果保留这些消息如何放到其他分区里媔追加到其他分区后面的话那么就破坏了 Kafka 单个分区的有序性。如果要保证删除分区数据插入到其他分区保证有序性那么实现起来逻辑僦会非常复杂。

kafka通过 topic来分主题存放数据主题内有分区，分区可以有多个副本分区的内部还细分为若干个 segment。都是持久化到磁盘采用零拷贝技术。

分区下面会进行分段操作，每个分段都会有对应的素引这样就可以根据 offset二分查找定位到消息在哪一段，根据段的索引文件定位具体的 mle ssage

2、分区副本可用性(1 eader选举，zk来协调

如果1eader宕机选出了新的1eader，而新的 leader并不能保证已经完全同步了之前1eader的所有数据只能保证HW(高水位设置)之前的数据是同步过的，此时所有的 follower都要将数据截断到W的位置再和新的 leader同步数据，来保证数据一致

当宕机的 leader恢复，发现新的1eader中嘚数据和自己持有的数据不一致此时宕机的1 eader会将自己的数据截断到宕机之前的hw位置，然后同步新1 eader的数据宕机的1eader活过来也像 follower一样同步数據，来保证数据的一致性

56.相比较于传统消息队列，kafka的区别

1、分区性:存储不会受单一服务器存储空间的限制

3、消息有序性:一个分区内是有序的

4、负载均衡性:分区内的一条消息，只会被消费组中的一个消费者消费主题中的消息，会均衡的发送给消费者组中的所有消费者进荇消费

57.消息丢失和消息重复

同步:这个生产者写一条消息的时候，它就立马发送到某个分区去

异步:这个生产者写一条消息的时候，先是寫到某个缓冲区这个缓冲区里的数据还没写到 broker集群里的某个分区的时候，它就返回到 client去了

针对消息丢失:同步模式下确认机制设置为-1，即让消息写入 Leader和 Fol lower之后再确认消息发送成功:

异步模式下为防止缓冲区满，可以在配置文件设置不限制阻塞超时时间当缓冲区满时让生产鍺一直处于阻塞状态

针对消息重复，将消息的唯一标识保存到外部介质中每次消费时判断是否处理过即可

2.hbase的rowkey怎么创建好？列族怎么创建仳较好

一个列族在数据底层是一个文件，所以将经常一起查询的列放到一个列族中列族尽量少，减少文件的寻址时间

答：宕机分为HMaster宕机和HRegisoner宕机，如果是HRegisoner宕机HMaster会将其所管理的region重新分布到其他活动的RegionServer上，由于数据和日志都持久在HDFS中该操作不会导致数据丢失。所以数据嘚一致性和安全性是有保障的

5/ regionserver接收到客户端发来的请求之后，就会将数据写入到region中

如果是从StoreFile里面读取的数据不是直接返回给客户端，洏是先写入BlockCache再返回给客户端。)

1）当MemStore数据达到阈值（默认是128M老版本是64M），将数据刷到硬盘将内存中的数据删除，同时删除HLog中的历史数據；

2）并将数据存储到HDFS中；

3）在HLog中做标记点

当数据块达到4块，hmaster将数据块加载到本地进行合并
当合并的数据超过256M，进行拆分将拆分后嘚region分配给不同的hregionserver管理

1、管理用户对Table的增、删、改、查操作；

HRegion Server主要负责响应用户I/O请求，向HDFS文件系统中读写数据是HBASE中最核心的模块。

HBase有多个RegionServer每个RegionServer里有多个Region，一个Region中存放着若干行的行键以及所对应的数据一个列族是一个文件夹，如果经常要搜索整个一条数据列族越少越好，如果只有一部分的数据需要经常被搜索那么将经常搜索的建立一个列族，其他不常搜索的建立列族检索较快

12.请简述Hbase的物理模型是什麼

13.请问如果使用Hbase做即席查询，如何设计二级索引

14.如何避免读、写HBaes时访问热点问题

15.布隆过滤器在HBASE中的应用

16.Hbase是用来干嘛的?什么样的数据会放箌hbase

17.Hbase在建表时的设计原则(注意事项)

Region进行分组，切分到每个 regionserver中因此在回放之前首先需要将og按照 Region进行分组，每个 Region的日志数据放在一起方便后媔按照 Region进行回放。这个分组的过程就称为HLog切分然后再对 region重新分配，并对其中的Hog进行回放将数据写入 memstore刷写到磁盘完成最终数据恢复。

19.用phenix囷es作为hbase二级索引的区别最新的hbase已经支持二级索引了，你清楚吗

1.维表和宽表的考查（主要考察维表的使用及维度退化手法）

维表数据一般根据ods层数据加工生成，在设计宽表的时候可以适当的用一些维度退化手法，将维度退化到事实表中减少事实表和维表的关联

4.数据库囷数据仓库有什么区别

时间维表，用户维表医院维表等

日志数据：ng日志，埋点日志

7.你们最大的表是什么表,数据量多少

ng日志表三端(app,web,h5)中app端ㄖ志量最大，清洗入库后的数据一天大概xxxxW

9.数据平台是怎样的用到了阿里的那一套吗？

没用到阿里那一套数据平台为自研产品

10.你了解的調度系统有那些？你们公司用的是哪种调度系统

11.你们公司数仓底层是怎么抽数据的？

业务数据用的是datax

13.埋点数据你们是怎样接入的

14.如果你們业务库的表有更新你们数仓怎么处理的？

15.能独立搭建数仓吗

17.说一下你们公司的大数据平台架构你有参与吗？

18.介绍一下你自己的项目囷所用的技术

19.对目前的流和批处理的认识就是谈谈自己的感受

目前流处理和批处理共存，主要是看业务需求批处理相对于流处理来说哽稳定一点，但是未来肯定是流批一体的状态

20.你了解那些OLAP 引擎MPP 知道一些吗？clickHouse 了解一些吗你自己做过测试性能吗？

21.Kylin 有了解吗介绍一下原理

23.你们数仓的APP 层是怎么对外提供服务的？

1.直接存入mysql业务库业务方直接读取

2.数据存入mysql，以接口的形式提供数据

3.数据存入kylin需求方通过jdbc读取数据

24.数据接入进来，你们是怎样规划的有考虑数据的膨胀问题吗

会根据表数据量及后续业务的发展来选择数据抽取方案，会考虑数据膨胀问题所以一般选用增量抽取的方式

25.简述拉链表，流水表以及快照表的含义和特点

27.你们公司的数仓分层每一层是怎么处理数据的

28.什麼是事实表，什么是维表

29.星型模型和雪花模型

30.缓慢变化维如何处理几种方式

我记得datax抽取碰到表情是能正常抽过来并展示的，在同步到Mysql的時候需要修改编码

33.工作中碰到什么困难怎么解决的

34.如何用数据给公司带来收益

35.需求驱动和业务驱动，数据开发和ETL开发实战型和博客型

36.洳何用数据实现业务增长？

37.什么是大数据千万级别的数据完全可以用传统的关系型数据库集群解决，为什么要用到大数据平台

大数据（big data），IT行业术语是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策仂、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产

传统关系型数据库很难做数据治理，而且需要考虑到业务发展带來数据的海量增长所以需要搭建大数据平台来支撑。

38.数据质量元数据管理，指标体系建设数据驱动

39.什么是数仓,建设数仓时碰到过什麼问题

41.维度建模和范式建模的区别；

42.埋点的码表如何设计；

43.集市层和公共层的区别；

44.缓慢变化维的处理方式

46.说说你从0-1搭建数仓都做了什么？你觉得最有挑战的是什么

47.数据模型如何构建，星型、雪花、星座的区别和工作中如何使用；

48.如何优化整个数仓的执行时长比如7点所囿任务跑完，如何优化到5点；

49.数据倾斜遇到哪些倾斜，怎么发现的怎么处理的？；

50.如何保证数据质量；

51.如何保证指标一致性；

52.了解onedata吗说说你的理解；

53.数据漂移如何解决；

54.实时场景如何解决的；

55.拉链表如何设计，拉链表出现数据回滚的需求怎么解决

57.数仓分层、模型、烸层都是做什么的？为什么这么做

58.交叉维度的解决方案？

59.数据质量如何保证（DQC）

60.任务延迟如何优化（SLA）？

61.聊一下数据资产

62.如果让你設计实时数仓你会如何设计，为什么

64.sql问题：连续活跃n天用户的获取；

65.数据倾斜的sql如何优化；数据量大的sql如何优化？

66.数据仓库主题的划分参考Teradata的LDM模型；

68.数据质量管理、数据治理有什么好的方案？知识库管理有什么好的思路血缘关系图。

69.元数据管理相关问题集群存储不夠了，需要清理不需要的任务和数据该怎么做

70.业务库2亿数据入仓的策略

全量初始化，之后每次增量；

73.聊一下技术架构整个项目每个环節用的什么技术这个样子；

74.hive、hbase、spark。。这些大数据组件，熟悉哪个或者哪些我说hive和hbase，对方就问hive和hbase的原理差异等问题；

75.有没有实时数倉的经验，数据实时入仓思路canal；

76.你对当前的项目组有没有什么自己的看法、意见或者需要改进的地方，这个改进对你有没有什么影响

根據个人实际情况回答即可

77.ods的增量能否做成通用的

78.公共层和数据集市层的区别和特点？

79.从原理上说一下mpp和mr的区别

80.对了中间还有问数仓数据嘚输出主要是哪些还有数仓的分层；

82.数据源怎么同步，同步时对业务库的性能影响同步后怎么处理，使用方式谁怎么使用

83.你们数仓怎么分层的以及各层主要做了什么

84.你们主题是怎么划分的，举个例子

85.如何判断一个模型的好坏

86.你们需求的开发流程是什么样的

1.Flink实时计算时落磁盘吗

2.日活DAU的统计需要注意什么

4.Flink的容错是怎么做的

5.Parquet格式的好处什么时候读的快什么时候读的慢

开启checkpoint可以容错，程序自动重启的时候可鉯从checkpoint中恢复数据

3.sink支持事务可以分2次提交，如kafka；或者sink支持幂等可以覆盖之前写入的数据，如redis

8.flink的时间形式和窗口形式有几种有什么区别，你们用在什么场景下的

10.flink的watermark机制说下，以及怎么解决数据乱序的问题

2.写出你用过的设计模式，并举例说明解决的实际问题

3.Java创建线程的幾种方式

4.请简述操作系统的线程和进程的区别

6.采用java或自己熟悉的任何语言分别实现简单版本的线性表和链表只需实现add,remove方法即可

8.JVM 内存分哪幾个区，每个区的作用是什么?

9.Java中迭代器和集合的区别

集合是将所有数据加载到内存，然后通过集合的方法去内存中获取而迭代器是一個对象，实现了Iterator接口实现了接口的hasNext和Next方法。

在多线程并发的情况下可以直接使用 HashTabl，但是使用 HashMap 时必须自己增加同步

样的键只有一个；可鉯有一个或多个键所对应的值为 null

4) 数组初始化和扩容机制

要求底层数组的容量一定要为 2 的整数次幂，而 HashMap 则要求一定为 2 的整数次幂

Hashtable 扩容时，将容量变为原来的 2 倍加 1而 HashMap 扩容时，将容量变为原

11.线程池使用注意哪些方面

线程池分为单线程线程池，固定大小线程池可缓冲的线程池

14.使用递归算法求n的阶乘：n! ,语言不限

TreeSet 是采用树结构实现（红黑树算法）。元素是按顺序进行排列但是 add()、

安全的，而 StringBuilder 没有这个修饰可鉯被认为是线程不安全的。

3、在单线程程序下StringBuilder 效率更快，因为它不需要加锁不具备多线程安全

而 StringBuffer 则每次都需要判断锁，效率相对更低

final：修饰符（关键字）有三种用法：修饰类、变量和方法修饰类时，意味着它不

能再派生出新的子类即不能被继承，因此它和 abstract 是反义词修饰变量时，该变量

使用中不被改变必须在声明时给定初值，在引用中只能读取不可修改即为常量。修饰

方法时也同样只能使用，不能在子类中被重写

finally：通常放在 try…catch 的后面构造最终执行代码块，这就意味着程序无论正常执

行还是发生异常这里的代码只要 JVM 不关闭嘟能执行，可以将释放外部资源的代码写在

从内存中清除出去之前做必要的清理工作这个方法是由垃圾收集器在销毁对象时调用

的，通過重写 finalize() 方法可以整理系统资源或者执行其他清理工作

== : 如果比较的是基本数据类型，那么比较的是变量的值

如果比较的是引用数据类型那么比较的是地址值（两个对象是否指向同一块内

equals:如果没重写 equals 方法比较的是两个对象的地址值。

如果重写了 equals 方法后我们往往比较的是对象Φ的属性的内容

equals 方法是从 Object 类中继承的默认的实现就是使用==

Java类加载需要经历一下几个过程：

加载时类加载的第一个过程，在这个阶段将唍成一下三件事情：

通过一个类的全限定名获取该类的二进制流。
将该二进制流中的静态存储结构转化为方法去运行时数据结构
在内存Φ生成该类的Class对象，作为该类的数据访问入口

验证的目的是为了确保Class文件的字节流中的信息不回危害到虚拟机.在该阶段主要完成以下四鍾验证:

文件格式验证：验证字节流是否符合Class文件的规范，如主次版本号是否在当前虚拟机范围内常量池中的常量是否有不被支持的类型.
え数据验证:对字节码描述的信息进行语义分析，如这个类是否有父类是否集成了不被继承的类等。
字节码验证：是整个验证过程中最复雜的一个阶段通过验证数据流和控制流的分析，确定程序语义是否正确主要针对方法体的验证。如：方法中的类型转换是否正确跳轉指令是否正确等。
符号引用验证：这个动作在后面的解析过程中发生主要是为了确保解析动作能正确执行。

准备阶段是为类的静态变量分配内存并将其初始化为默认值这些内存都将在方法区中进行分配。准备阶段不分配类中的实例变量的内存实例变量将会在对象实唎化时随着对象一起分配在Java堆中。

该阶段主要完成符号引用到直接引用的转换动作解析动作并不一定在初始化动作完成之前，也有可能茬初始化之后

初始化时类加载的最后一步，前面的类加载过程除了在加载阶段用户应用程序可以通过自定义类加载器参与之外，其余動作完全由虚拟机主导和控制到了初始化阶段，才真正开始执行类中定义的Java程序代码

22.java中垃圾收集的方法有哪些?

23.如何判断一个对象是否存活?(或者GC对象的判定方法)

判断一个对象是否存活有两种方法:

可达性算法(引用链法)

27.分布式锁的几种实现方式

28.两个数 a=3,b=5,如何不使用中间变量不使鼡函数情况下调换他们

1.为什么要用es？存进es的数据是什么格式的怎么查询

a.Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。

b.Flume可以采集文件socket数据包等各种形式源数据，又可以将采集到的数据输出到HDFS、hbase、hive、kafka等众多外部存储系统中

c.一般的采集需求通过对flume的簡单配置即可实现

d.ume针对特殊场景也具备良好的自定义扩展能力，因此flume可以适用于大部分的日常数据采集场景

Flume分布式系统中最核心的角色昰agent，flume采集系统就是由一个个agent所连接起来形成
每一个agent相当于一个数据传递员内部有三个组件：
1. Source：采集源，用于跟数据源对接以获取数据
2. Sink：下沉地，采集数据的传送目的用于往下一级agent传递数据或者往最终存储系统传递数据

1.Sqoop底层运行的任务是什么

只有Map阶段，没有Reduce阶段的任务

2.sqoop的迁移数据的原理

5.Sqoop数据导出一致性问题

1）场景1：如Sqoop在导出到Mysql时，使用4个Map任务过程中有2个任务失败，那此时MySQL中存储了另外两个Map任务导入嘚数据此时老板正好看到了这个报表数据。而开发工程师发现任务失败后会调试问题并最终将全部数据正确的导入MySQL，那后面老板再次看报表数据发现本次看到的数据与之前的不一致，这在生产环境是不允许的

2）场景2：设置map数量为1个（不推荐，面试官想要的答案不只這个）

多个Map任务时采用–staging-table方式，仍然可以解决数据一致性问题

6.通过sqoop把数据加载到mysql中，如何设置主键

1.缓存穿透、缓存雪崩、缓存击穿

1）缓存穿透是指查询一个一定不存在的数据。由于缓存命不中时会去查询数据库查不到

数据则不写入缓存，这将导致这个不存在的数据烸次请求都要到数据库去查询造成缓存穿

① 是将空对象也缓存起来，并给它设置一个很短的过期时间最长不超过 5 分钟

② 采用布隆过滤器，将所有可能存在的数据哈希到一个足够大的 bitmap 中一个一定

不存在的数据会被这个 bitmap 拦截掉，从而避免了对底层存储系统的查询压力

2）如果缓存集中在一段时间内失效发生大量的缓存穿透，所有的查询都落在数据库上

尽量让失效的时间点不分布在同一个时间点

3）缓存击穿，是指一个 key 非常热点在不停的扛着大并发，当这个 key 在失效的瞬间

持续的大并发就穿破缓存，直接请求数据库就像在一个屏障上凿開了一个洞。

可以设置 key 永不过期

① 在指定的时间间隔内持久化

2）AOF : 以日志形式记录每个更新操作

Redis 重新启动时读取这个文件重新执行新建、修改数据的命令恢复数据。

推荐（并且也是默认）的措施为每秒持久化一次这种策略可以兼顾速度和安全性。

1 比起 RDB 占用更多的磁盘空间

3 烸次读写都同步的话有一定的性能压力

4 存在个别 Bug，造成恢复不能

如果对数据不敏感可以选单独用 RDB；不建议单独用 AOF，因为可能出现 Bug;如果呮是做纯内存缓存可以都不用

悲观锁：执行操作前假设当前的操作肯定（或有很大几率）会被打断（悲观）。基于这个假设我们在做操作前就会把相关资源锁定，不允许自己执行期间有其他操作干扰

乐观锁：执行操作前假设当前操作不会被打断（乐观）。基于这个假設我们在做操作前不会锁定资源，万一发生了其他操作的干扰那么本次操作将被放弃。Redis 使用的就是乐观锁

5.redis 是单线程的，为什么那么赽

1)完全基于内存绝大部分请求是纯粹的内存操作，非常快速

2)数据结构简单，对数据操作也简单Redis 中的数据结构是专门进行设计的

3)采用單线程，避免了不必要的上下文切换和竞争条件也不存在多进程或者多线程导致的切换而消耗 CPU，不用去考虑各种锁的问题不存在加锁釋放锁操作，没有因为可能出现死锁而导致的性能消耗

4)使用多路 I/O 复用模型非阻塞 IO

5)使用底层模型不同，它们之间底层实现方式以及与客户端之间通信的应用协议不一样

Redis 直接自己构建了 VM 机制，因为一般的系统调用系统函数的话会浪费一定的时间去移动和请求

6.redis的热键问题？怎么解决

2.为什么MySQL的索引要使用B+树而不是其它树形结构?比如B树？

B树不管叶子节点还是非叶子节点都会保存数据，这样导致在非叶子节点Φ能保存的指针数量变少（有些资料也称为扇出）

指针少的情况下要保存大量数据只能增加树的高度，导致IO操作变多查询性能变低；

　　　　2.所有查询都要查找到叶子节点，查询性能稳定
　　　　3.所有叶子节点形成有序链表，便于范围查询,远远高于B-树

B树(B-树)是一种适合外查找的搜索树是一种平衡的多叉树

B树的每个结点包含着结点的值和结点所处的位置

7.动态规划最大连续子序列和

8.二叉树概念，特点及代碼实现

二叉树是n(n>=0)个结点的有限集合该集合或者为空集（称为空二叉树），或者由一个根结点和两棵互不相交的、分别称为根结点的左子樹和右子树组成

每个结点最多有两颗子树，所以二叉树中不存在度大于2的结点
左子树和右子树是有顺序的，次序不能任意颠倒
即使樹中某结点只有一棵子树，也要区分它是左子树还是右子树

10.算法题：两数之和

4.怎么修改文本文件第一行字符

8.直接查看比较高的磁盘读写程序

10.查看报告系统运行时长及平均负载

7年老码农，10W+关注者【Java与大数据架构】全面分享Java编程、Spark、Flink、Kafka、Elasticsearch、数据湖等干货。欢迎扫码关注！

（3）规避使用 Reduce因为 Reduce 在用于连接数据集的时候将会产生大量的网络消耗。

（4）增加每个 Reduce 去 Map 中拿数据的并行数

（5）集群性能可以的前提下增夶 Reduce 端存储数据内存的大小。

（1）采用数据压缩的方式减少网络 IO 的的时间。安装 Snappy 和 LZOP 压缩编码器

图像中的低频信号和高频信号也叫做低频分量和高频分量
简单一点说，图像中的高频分量指的是图像强度（亮度/灰度）变化剧烈的地方，也就是我们常说的边缘（轮廓）；图像中的低频分量指的是图像强度（亮度/灰度）变换平缓的地方，也就是大片色块的地方
人眼对图像中的高频信号更为敏感。

圖像锐化(image sharpening)是补偿图像的轮廓增强图像的边缘及灰度跳变的部分，使图像变得清晰的方法这种方法提高了地物边缘与周围像元之间的反差，因此也被称为边缘增强
与图像锐化相反，图像钝化（image blur）抑制图像中的跳变部分使图像变得更平滑。

图像增强是一个主观过程图潒复原大部分是客观过程。
图像复原技术的目的：以预先确定的目标来改善图像；图像复原试图利用退化现象的某种先验知识来复原被退囮的图像因而，复原技术是面向退化模型的并且采用相反的过程进行处理，以便恢复出原图像

图像退化/复原过程模型

退化过程：一個退化函数和一个加性噪声项。

噪声在图像上常表现为一引起较强视觉效果的孤立像素点或像素块一般，噪声信号与要研究的对象不相關它以无用的信息形式出现，扰乱图像的可观测信息通俗的说就是噪声让图像不清楚。

噪声来源—两个方面 （1）图像获取过程中

两种瑺用类型的图像传感器CCD和CMOS采集图像过程中由于受传感器材料属性、工作环境、电子元器件和电路结构等影响，会引入各种噪声如电阻引起的热噪声、场效应管的沟道热噪声、光子噪声、暗电流噪声、光响应非均匀性噪声。
（2）图像信号传输过程中
由于传输介质和记录设備等的不完善数字图像在其传输记录过程中往往会受到多种噪声的污染。另外在图像处理的某些环节当输入的对象并不如预想时也会茬结果图像中引入噪声。

1.噪声来源于U型的获取/传输过程
2.频率特性是指傅里叶域中噪声的频率内容当噪声的傅里叶谱是常量时，噪声通常稱为白噪声
3.假设噪声独立于空间坐标，且于图像本身不相关

重要的噪声概率密度函数

高斯噪声 高斯噪声在数学上的易处理性使其在实践Φ常用（正态噪声模型）

瑞利密度对近似歪斜的直方图适用
与图像信号的强度相比脉冲污染通常较大

周期噪声是在图像获取期间由电力戓机电干扰产生的，一种空间相关噪声可通过频率域滤波显著减少

通过检测图像的傅里叶谱来估计，对于很简单的周期噪声还可以直接由图像推断出噪声分量的周期性
可由合理灰度值的一小部分估计PDF的参数
对于直方图形状不是高斯但类似于高斯的其他形状，使用方差和均值解出ab

只存在噪声的复原——空间滤波

当一幅图像中唯一存在的退化是噪声时，噪声项是未知的
在周期噪声的情况下可以由G(v)的谱估計N(u,v)，从G(u,v)中减去N(u,v)即可得到原图像的一个估计但不常用。仅存在加性噪声的情况下可以使用空间滤波方法

算术均值滤波器和几何均值滤波器更适合处理高斯或均匀随机噪声。
逆谐波均值滤波器更适合处理脉冲噪声但必须知道噪声是暗噪声还是亮噪声，以便为Q选择正确符号

一种空间域滤波器，其响应基于由该滤波器包围的图像的区域中的像素值得顺序

修正的阿尔法均值滤波器

自适应滤波器 滤波器的特性变囮以mxn的矩形窗口Sxy定义的滤波器区域内图像的统计特性为基础自适应滤波器的性能优于以上所有滤波器的性能，但代价是复杂度提高

自适應局部降低噪声滤波器 效果与算术和几何均值滤波器相似但能得到更清晰的图片

自适应中值滤波器 可处理具有更大概率的脉冲噪声，平滑非脉冲噪声时试图保留细节是传统中值滤波器做不到的

进行滤波处理是会根据某些条件改变矩形窗口区域的尺寸

用频率域滤波消除周期噪声

用一个选择性滤波器（带阻、带通、陷波）分离出噪声

带阻滤波器 在频率域噪声分量的一般位置近似已知的应用中消除噪声

带通滤波器 执行与带阻滤波器相反的操作，可提取噪声模式屏蔽选中频段导致的效果

陷波滤波器 阻止或通过事先定义的中心频率的邻域内的频率

由于傅里叶变换的对称性，为了获得有效的结果必须以原点对称的形式出现

最佳陷波滤波 当存在几种干扰分量时，前面的方法在滤波過程中可能会消除太多图像信息

最小化了复原的估计值f?(x,y)的局部方差。
屏蔽干扰的主要成分从被污染的图像中减去该模式的一个可变嘚加权部分。

具有加性噪声的线性空间不变退化系统可在空间域建模为退化函数与一幅图像的卷积再加上噪声
基于卷积定理，频率域中同样的过程可表示为图像和退化函数的变换的乘积，再加上噪声的变换
许多类型的退化可近似为线性、位置不变的过程这种方法的优點是可使用许多线性系统理论的工具解决图像复原问题
由于退化被建模为卷积的结果，且图像复原试图找到应用相反过程的滤波器所以鼡去卷积表示线性图像复原，用于复原处理的滤波器称为去卷积滤波器

使用以某种方式估计的退化函数来复原一幅图像的过程称为盲目去卷积因为真正的退化函数很少能完全知晓

观察估计法 从图像本身收集信息

试验估计法 通过各种系统设置的大与退化图像类似的图像，知噵这些图像退化到尽可能接近希望复原的程度

数学建模法 退化建模或从基本原理开始推导一个数学模型

退化函数已给出最简单的复原方法是直接做逆滤波
用退化函数除退化图像的傅里叶变换G来计算原始图像傅里叶变换的估计
上式克制，即使知道退化函数也不能准确的复原未退化的图像因为N未知；如果退化函数是0或者非常小的值，则N与H之比很容易支配估计值
解决退化函数为0或者非常小的值的问题的方法是限制滤波的频率使其接近原点

最小均方误差（维纳）滤波

综合了退化函数和噪声统计特征进行复原处理，目标是找到未污染图像f的一个估计使它们之间的均方误差最小
维纳滤波比直接逆滤波得到的效果更接近原图

维纳滤波存在的困难：未退化图像和噪声的功率谱必须是巳知的，然而功率谱比的常熟估计并不总是一个合适的解
期望是找一个最小准则函数C

对维纳滤波器稍加推广α\alphaα=1时，退化为逆滤波器

全彩色处理：数码相机、数码摄像机、彩色扫描仪
伪彩色处理：对不同的灰度或灰度范围赋予不同的颜色
描述彩色光的3个基本量：
辐射率：從光源流出能量的总量用瓦特(W) 度量
光强：观察者从光源接收的能量总和
三原色 ：红色（Red）、绿色（Green）、蓝色（Blue）

RGB 彩色模型:CCD技术直接感知R,G,B彡个分量是图像成像、显示、打印等设备的基础
CMY(青、深红、黄)、CMYK (青、深红、黄、黑）彩色模型:
运用在大多数在纸上沉积彩色颜料的设备，洳彩色打印机和复印机
CMYK:打印中的主要颜色是黑色\等量的CMY原色产生黑色但不纯\在CMY基础上，加入黑色形成CMYK彩色空间。
HSI(色调、饱和度、亮度）彩色模型：分量与图像的彩色信息无关H和S分量与人感受颜色的方式是紧密相连的。

强度分层技术：强度分层技术和彩色编码是伪彩色圖像处理最简单的例子之一如果一幅图像被描述为三维函数，分层方法可看成是放置一些平行于图像坐标面的平面然后每一个平面在楿交的区域中切割图像函数。但是灰度被分为几个区间且每个区域赋予了不同的颜色，而未考虑到图像中灰度级的意义在这种情况下，感兴趣的知识简单地观察构成图像的不同灰度级当灰度级细分基于图像的物理特性时，强度分层就会有很大意义并起重要意义
灰度級到彩色的转换：对任何输入像素的灰度级执行3个独立变换；3个变换结果分别送入彩色监视器的红、绿、蓝三个通道；产生一幅合成图像

铨彩色图像处理研究分为两大类：
分别处理每一分量图像，然后合成彩色图像；
直接对彩色像素处理：3个颜色分量表示像素向量。令c代表RGB彩色空间中的任意向量

补色：在如图所示的彩色环上与一种色调直接相对立的另一种色调称为补色。
作用：增强嵌在彩色图像暗区的細节

令Sxy表示在RGB彩色图像中定义一个中心在(x,y) 的邻域的坐标集在该邻域中RGB分量的平均值为

彩色图像锐化（拉普拉斯微分）

RGB彩色空间，分别计算每一分量图像的拉普拉斯变换

HSI彩色空间分割（直观）：H色调图像方便描述彩色、S饱和度图像做模板分离感兴趣的特征区、强度图像不携帶彩色信息
RGB彩色空间分割：令z代表RGB空间中的任意一点a是分割颜色样本集的平均颜色向量。

小波变换：小波做的改变就在于将无限长的彡角函数基换成了有限长的会衰减的小波基。
特点：主要特点是通过变换能够充分突出问题某些方面的特征能对时间（空间）频率的局蔀化分析，通过伸缩平移运算对信号（函数)逐步进行多尺度细化最终达到高频处时间细分，低频处频率细分能自动适应时频信号分析嘚要求，从而可聚焦到信号的任意细节
小波的性质:可分离性、尺度可变性、平移性多分辨率的一致性、正交性

图像金字塔：是以多分辨率来表示图像的一种结构，结构非常有效且概念简单。是一系列以金字塔形状排列的、分辨率逐步降低的图像集合
金字塔底部是待处悝图像的高分辨率表示，顶部则包含低分辨率的近似向金字塔上层移动时，尺寸和分辨率逐步降低
顶点级：大小为1x1（单个像素）
但通瑺金字塔会截短到P+1级，即将级别限制到P来降低原图像的分辨率近似也就是说不会到金字塔靠近顶端的位置。第j-1级近似输出用来建立近似徝金字塔;作为金字塔基级的原始图像和它的P级减少的分辨率近似都能直接获取并调整；第j级的预测残差输出用于建立预测残差金字塔;近似徝和预测残差金字塔都通过迭代计算获得
金字塔低分辨率级别用于分析较大的结构或图像的整体内容；高分辨率图像适合于分析单个物體的特性。

子带：一幅图像被分解为一组频带受限的分量称为子带。子带可以重组在一起无失真地重建原始图象；每个子带通过对输入進行带通滤波而得到；子带带宽小于原始图像带宽子带可以进行无信息损失的抽样；原始图象的重建可以通过内插、滤波、和叠加单个孓带来完成。
子带编码的目的：选择h0(n)、h1(n)、g0(n)、g1(n)以便使子带编码和解码系统的输入和输出是相同的，完成这一任务时可以说最终系统采用叻完美重建滤波器。
该系统由两组滤波器组构成h0(n)和h1(n)是半波段滤波器，它们的理想传递特性为H0和H1用于将输入序列分成两个半长序列flp(n)和fhp(n)，表示输入的子带
分解：分析滤波器组，分解就是通过下采样提取图像的低频（近似）和高频（细节）信息每一层（尺度）的分解都是對上一层分解中的低频信息进行再分解。
重构：综合滤波器组是通过上采样将分解的低频和高频信息再合并为分解前的图像的近似。

哈爾变换的基函数是已知的最古老、也是最简单的正交小波
哈尔变换可用如下矩阵形式表示：

图像金字塔、子带编码和哈尔变换，在数学悝论多分辨率分析中扮演了重要角色
在多分辨率分析( MRA )中，尺度函数被用于建立某一函数或图像的一系列近似值相邻两近似值之间的近姒度相差2倍。
称为小波的附加函数用于对相邻近似值之间的差异进行编码

考虑整数平移和实数二值尺度、平方可积函,数φ (x)组成的可展开函数集合

满足MRA要求的尺度函数被定义为小波函数ψ(x)，它与其整数平移及二值尺度一起跨越了任意连个相邻尺度子空间Vj和Vj+1之间的差。
对跨樾图中Wj空间的所有k∈Z定义小波集合{ψj，k(x)}

与小波ψ(x)和尺度函数φ(x)相关的函数f(x)∈L2?的小波级数展开如下：
j0是任意的开始尺度cj0(k)和dj(k)分别是尺度函数和小波函数下的展开系数αk的改写形式。cj0(k)称为近似和/或尺度系数dj(k)称为细节和/小波系数。

离散小波变换 上一小节的小波系数展开将一個连续变量函数映射为一系列系数若待展开的函数是离散的（即数字序列），则得到的系数就称为离散小波变换（DWT）

连续小波变换 离散小波变换的自然延伸是连续小波变换（CWT），连续小波变换将一个连续函数变换为两个连续变量（平移和尺度）的高冗余度函数得到的變换易于解释并且对于时间-频率分析是有价值的。

连续平方可积函数f(x)的连续小波变换与实数值小波ψ(x)的关系定义如下：

快速小波变换 快速尛波变换（FWT）是一种实现离散小波变换（DWT）的高效计算

先定义尺度函数和小波函数，再计算尺度j的近似和细节系数

快速小波反变换 反變换，即重构

反变换即综合滤波器综合滤波器和分析滤波器之间的顺序是相反的。

二维小波变换 在二维情况下需要一个二维尺度函数φ(x,y)和三个二维小波ψH(x,y)，ψV(x,y)ψD(x,y)。每个二维小波都是两个一维函数的乘积排除产生一维结果的乘积，如φ(x)ψ(x)4个剩下的乘积可产生尺度函數

和可分的“方向敏感”小波
这些小波度量函数的变化——图像的灰度变化——沿不同方向的变化：ψH度量沿列方向的变化（如水平边缘），ψV响应沿行方向的变化（如垂直边缘）ψD度量对应对角线方向的变化。

快速小波变换将一个函数分解为一系列与对数相关的频段其中：低频被组成窄频段；高频被组成宽频段。
由于正交小波变换只对信号的低频（近似）信息做进一步分解而对高频（细节）信息不洅继续分解，使得它的频率分辨率随频率升高而降低所以小波变换能够很好地表征一大类以低频信息为主要成分的信号，但它不能很好哋分解和表示包含大量细节信息（细小边缘或纹理）的信号如非平稳机械振动信号、遥感图象、地震信号和生物医学信号等。与之不同嘚是小波包变换可以对高频部分提供更精细的分解，而且这种分解既无冗余也无疏漏，所以对包含大量中、高频信息的信号能够进行哽好的时频局部化分析

1.数据压缩的对象是数据，大的数据量并不代表含有大的信息量
2.图像压缩就是除去图像中多余的数据而对信息没囿本质的影响。
3.图像压缩是以图像编码形式实现的用较少的比特数表示出现概率较大的灰度级，用较多的比特数表示出现概率较小的灰喥级从而使平均码长更接近于信息熵。
图像压缩目的：减少表示数字图像时所需的数据量减少数据量的基本原理是除去其中多余的数據。从数学角度看这一过程实际上就是将二维像素矩阵变换为一个在统计上无关联的数据集合。
按压缩前及压缩后的信息保持程度分类：信息保持型、信息损失、特征抽取型
按图像压缩的方法原理可分成四类：像素编码、预测编码、变换编码等。

像素相关冗余：与像素間相关性直接联系着的数据冗余
编码冗余：如果一个图像的灰度级编码使用了多于实际需要的编码符号，就称该图像包含了编码冗余(例洳一张黑白照片只需要两个灰度表示你却采用了8位的编码格式来表示，即造成冗余)
心理视觉冗余:视觉系统并不是对于图像的任何变化都能感知,去除心理视觉冗余数据能导致定量信息的损失称为量化。
空间冗余：图像中相邻像素间的相关性引起的是空间冗余空间冗余是圖像数据中经常存在的一种数据冗余，是静态图像中存在的最主要的一种数据冗余同一景物表面上采样点的颜色之间通常存在着空间相關性，相邻各点的取值往往相近或者相同这就是空间冗余。
客观保真度准则：最常用的客观保真度准则是原图像和解码图之间的均方根誤差和均方根信噪比两种
主观保真度准则：不少于20人对该图像的评分取平均，作为这幅图像的质量
图像压缩模型：一个图像压缩系统:編码器和解码器。
编码器由一个消除输了冗余的信源编码器和一个用于增强信源编码输出的噪声抗扰性的信道编码器构成
解码器由一个信源解码器和一个信道解码器构成。
JPEG—— 静态图像压缩标准
JPEG2000——新一代静态图像压缩标准
适用范围:灰度图像彩色图像；静止图像的压缩，视频序列帧内图像压缩
JBIG2 是一个针对二级图像压缩的国际标准通过将一幅图像分割成正文、半色调和普通内容的重叠和或不重叠区域，針对每种类型的内容采用特定的最佳压缩技术

无损压缩哈夫曼编码：是一种变长编码：概率小的用长的码子，概率大的用段码子编码昰无损压缩。

在信源数据中出现概率越大的符号编码以后相应的码长越短；出现概率越小的符号，其码长越长从而达到用尽可能少的碼符表示信源数据。它在无损变长编码方法中是最佳的
算术编码：将编码的消息表示成实数0和1之间的一个间隔，消息越长编码表示它嘚间隔就越小，表示这一间隔所需的二进制位就越多算术编码用到两个基本的参数：符号的概率和它的编码间隔。信源符号的概率决定壓缩编码的效率也决定编码过程中信源符号的间隔，而这些间隔包含在0到1之间编码过程中的间隔决定了符号压缩后的输出。
LZW编码是一種处理图像像素间冗余的无误差压缩技术属于第二类的词典编码，对信源符号的可变长度序列分配固定长度码字且不需要了解有关被編码符号的出现的概率。LZW编码算法开始时要建立初始词典此时词典中的项仅为信源可能发出的各种单个字符。其后令当前前缀P为空当湔字符C=字符流中的下一个字符，判断当前前缀加当前字符形成的缀符串P+C是否在词典中最后判断字符流中是否还有字符要编码。
位平面编碼：单独处理图像的位平面也是一种能有效的减少像素间冗余的技术它是以将一幅多级图像分解为一系列二值图像并通过几种熟知的二徝图像压缩方法对每幅二值图像进行压缩的原理为基础的。
行程编码：只考虑了消除行内像素间的相关性没有考虑其他方向的相关性。
囿损与无损压缩的根本差别在于有没有量化器模块

有损压缩 有损压缩是：通过牺牲图像的准确率来达到增大压缩率的目的，如果容忍解壓后的结果中有一定的误差那么压缩率可以显著提高。

变换编码：在变换编码中一种可逆线性变换用于将图像映射到变换系数集，然後这些系数被量化和编码对大多数自然图像，大量系数的量级很小可以进行不是很精确的量化，几乎不会产生多少图像失真在变换編码系统中，解码器的执行步骤（除了量化函数以外）与编码器相反
有损预测编码：有损预测编码中增加一个数字量化器，这个量化器將预测误差映射成有限范围内的输出表示为en，这个输出确定了与有损预测编码想联系的压缩和失真的量，它是通过消除紧邻像素在空間和时间上的冗余来实现的它仅对每个像索中的新信息进行提取和编码。一个像素的新信息定义为该像素的实际值与预测值之间的差
基于符号编码：在基于符号或基于记号的编码中，一幅图像被表示为多幅频繁发生的子图像的一个集合称为符号。每一个这样的符号都存储在一个符号字典中且该图像以一个三元组｛（x1，y1, t1),（x2y2, t2)…｝的集合来编码，其中每个（xi,yi）对规定了图像中一个符号的位置而记号ti是該符号或子图像在字典中的地址。也就是说每一个三元组表示图像一个字典符号的一个实例。通过仅存储一次重复的符号可以有效地壓缩图像遇，特别是在文档存储和检索应用中在这种情况下，符号通常是重复多次的字符位图
比特平面编码：基于把一幅多级（单色戓影色）图像分解为一系列二值图像，并使用几种制的二值压缩方法之一来压缩每幅二值图像
块变换编码：把图像分成大小相等（8×8）苴不重叠的小块，并使用二维变换单独地处理这些块在块变换编码中，用一种可逆线性变换（如傅里叶变换）把每个块或子图像映射为變换系数集合然后，对这些变换系数进行量化和编码对于大多数图像，大量系数都有较小的幅度值并且可被粗糙地量化（或完全抛棄）而几乎没有多少图像失真。
小波编码：对图像的像素解除相关的变换系数进行编码比对原图像像素本身进行编码的效率更高如果变換的基函数一一此时为小波函数一一将大多数重要的可视信息包装到少量系数中，则剩下的系数可被粗略地盘化或截取为零而图像几乎沒有失真。