数据挖掘

数据挖掘

数据挖掘化功大法（21）——redis

什么是Redis Redis是一个开源的使用ANSI C语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value数据库，并提供多种语言的API。从2010年3月15日起，Redis的开发工作由VMware主持。从2013年5月开始，Redis的开发由Pivotal赞助。 Memcache…

小胖
2015-01-21
00
数据挖掘

数据挖掘化功大法（20）——网站日志挖掘

收集web日志的目的 Web日志挖掘是指采用数据挖掘技术，对站点用户访问Web服务器过程中产生的日志数据进行分析处理，从而发现Web用户的访问模式和兴趣爱好等，这些信息对站点建设潜在有用的可理解的未知信息和知识，用于分析站点的被访问情况，辅助站点管理和决策支持等。 1、以改进web站点设计为目标，通…

小胖
2015-01-20
00
数据挖掘

数据挖掘化功大法（19）——什么是数据挖掘（下）

什么是数据仓库数据仓库是一个面向主题的( Subject Oriented) 、集成的( Integrate) 、相对稳定的(NonVolatile) 、反映历史变化( Time Variant)的数据集合,用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理： ①数据仓库用于支持决策,面…

小胖
2015-01-19
00
数据挖掘

数据挖掘化功大法（18）——什么是数据挖掘（上）

什么是数据挖掘前两天看到群里有人问，什么是数据挖掘，现在就数据挖掘的概念做一下分析，并且尽量用大白话说一下数据挖掘到底是个啥东西，为啥大数据来了数据挖掘也火了(其实原来就挺火)。先看一上概念：数据挖掘(英语：Data mining)，又译为资料探勘、数据采矿。它是数据库知识发现(英语：Know…

小胖
2015-01-18
00
数据挖掘

数据挖掘化功大法（17）——分布式缓存

分布式缓存架构先看架构：图一用户通过访问http服务器，然后访问应用服务器资源，应用服务器调用后端的数据库，在第一次访问的时候，直接访问数据库，然后将要缓存的内容放入memcached集群，集群规模根据缓存文件的大小而定。在第二次访问的时候就直接进入缓存读取，不需要进行数据库的操作。这个适合数…

小胖
2015-01-17
00
数据挖掘

数据挖掘化功大法（16）——R中的线性回归

一元回归我们使用R中自带的数据集trees。其中包含了Volume(体积)、Girth(树围)、Height(树高)这三个变量。我们需要看的是体积和树转的关系。查看数据集： > head(trees) Girth Height Volume 1 8.3 70 10.3 2 8.6 65 1…

小胖
2015-01-16
00
数据挖掘

数据挖掘化功大法（15）——线性回归

线性回归是利用数理统计中的回归分析，来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，运用十分广泛。分析按照自变量和因变量之间的关系类型，可分为线性回归分析和非线性回归分析。在统计学中，线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变…

小胖
2015-01-15
00
数据挖掘

数据挖掘化功大法（14）——数据整理与数据归约

在我们需要整理的数据中，很多都是经过不同时间由于各种原因生成的数据，有的是可以追溯到源头的，有的是很难追溯的。通常我们会将所有的数据通过各种方式将数据字典收集到一起，然后进行相应的分析。下面介绍一下使用powerdesigener进行数据整理： 1.在Windows的ODBC数据源中陪着你的数据…

小胖
2015-01-14
00
数据挖掘

数据挖掘化功大法（13）——矩阵分解

矩阵分解 (decomposition,factorization)是将矩阵拆解为数个矩阵的乘积，可分为三角分解、满秩分解、QR分解、Jordan分解和SVD（奇异值）分解等，常见的有三种：1)三角分解法(Triangular Factorization)，2)QR 分解法 (QR Factoriz…

小胖
2015-01-13
00
数据挖掘

数据挖掘化功大法（12）——特征值和特征向量

矩阵的特征值和特征向量设A 是一个n 阶方阵，λ是一个数，如果方程 AX=λX (1) 存在非零解向量，则称 λ 为 A 的一个特征值，相应的非零解向量 X 称为属于特征值λ的特征向量. (1)式也可写成， (A-λE)X=0(2) 这是n 个未知数n 个方程的齐次线性方程组，它有非零解的充分必要…

小胖
2015-01-12
00
数据挖掘

数据挖掘化功大法（11）——线性空间

向量空间又称线性空间，是线性代数的中心内容和基本概念之一。在解析几何里引入向量概念后，使许多问题的处理变得更为简洁和清晰，在此基础上的进一步抽象化，形成了与域相联系的向量空间概念。譬如，实系数多项式的集合在定义适当的运算后构成向量空间，在代数上处理是方便的。单变元实函数的集合在定义适当的运算后，也构…

小胖
2015-01-11
00
数据挖掘

数据挖掘化功大法（10）——HP Vertica

考虑到企业数据仓库的重要战略意义(EDWs)和每年投入的巨额维护和扩展费用，如何容易地访问这些大量信息资产是非常迫切的需求。然而，许多EDWs成为自己成功的受害者。随着时间的推移，用户获取新问题答案的需要导致EDWs包含的数据量和复杂数据类型发生迅速增长，同时也带来更多的并发和复杂分析的压力。如果企…

小胖
2015-01-10
00
数据分析

网站分析与互联网数据分析挖据的区别

Nancy推荐：关于网站数据分析，一般都会借助第三方分析工具，个人比较推荐99click旗下的siteflow，分析数据指标比较全面，虽然按流量来收费，但是要比免费的GA，使用起来省力很多，而且比较适合商用。另外从这个工具中自己也可以学习到很多网站分析的方法。一直以来有不少朋友来信或留言，询问网站…

小胖
2015-01-08
00
数据挖掘

数据挖掘化功大法（9）——R语言

R是用于统计分析、绘图的语言和操作环境。R是属于GNU系统的一个自由、免费、源代码开放的软件，它是一个用于统计计算和统计制图的优秀工具。一、基本介绍： 1. 警告：在输入命令前请切换到英文模式。否则你的一大段代码可能因为一个中文状态的括号而报错，R语言的报错并不智能无法指出错误的具体位置。最可怕的…

小胖
2015-01-08
00
数据挖掘

数据挖掘化功大法（8）——相似性和相异性

前面说过了数据矩阵和相异性矩阵，并且对标称属性和二元属性的相异性进行了分析。下面综合看一下矩阵的相异性和相似性。相似性和相异性被许多数据挖掘技术所使用，如聚类、最近邻分类、异常检测等。两个对象之间的相似度是这两个对象相似程度的数值度量，通常相似度是非负值，并常常在0(不相似)和1(完全相似)之间…

小胖
2015-01-08
00

意见反馈

返回顶部