早安,向日葵
单身程序狗解决了一个技术难题后没有妹子可以炫耀或夸一下自己怎么办?现在你明白了吧,为什么那么多程序员要写技术博客。
  
数据的标准化与归一化 数据的标准化与归一化
最近做一个抖音的数据分析的时候,在数据归一化和标准化经常看到不一样的解释,通过不断地百度+知乎+测试,算是大概明白了这个过程。简单总结一下。 标准化与归一化其实这个问题主要的原因是这这些概念都是直接翻译过来的,Normalize和Stand
2020-04-22
Docker安装Mongodb及使用 Docker安装Mongodb及使用
最近有点偷懒,没有好好学习。因为预计接下来用mongodb会比较多,做一个简单的总结。 Docker + Mongodbdocker是真的好用,谁用谁知道,因为抖音的评论数据字段是在太多了,不知道哪些以后可能用得着,而返回的本身又是json
2020-03-30
知识图谱技术综述 知识图谱技术综述
知识图谱最底层的构建就是实体抽取和关系抽取。实体抽取用的主要是命名实体识别的技术,但是由于实体的领域属性,所以很难有一个通用的模型找出所需要的领域实体,需要人为的结合实际情况构建。而关系抽取在实际任务中同样需要人为的定义出关系,之后在文本中
2020-03-18
依存句法分析简介 依存句法分析简介
依存句法我们人在理解一个句子的时候,一般有两种方式,一种是句法分析,主谓宾啊等等等,另一种就是凭感觉,说起来可能有点搞笑,但却是大部分都是凭感觉。凭感觉在NLP里面就是语言模型,一个词搭配什么词比较连贯,接下来是什么,这就是语言模型建模的依
2020-03-18
机器学习 机器学习
发现之前课上学的机器学习太粗糙了,自己学的也不咋样,想好好整理一下。 1.逻辑回归(Logistic regression)Logistic Regression最常见的应用场景就是预测概率。比如知道一个人的 年龄、性别、血压、胆固醇水平、
2020-03-16
机器学习优化算法 机器学习优化算法
越来越觉得做机器学习有关的时候思维才是最重要的,这和你使用什么算法其实没有什么关系,也不是一个调用一个牛逼的算法就能解决问题,方法还是得人想,问题也得人来发现,数据处理和特征工程有时候也很重要。想用一些博客记录一下学习的过程,也想练一下自己
2020-03-13
Scrapy入门&&如何写一个好爬虫 Scrapy入门&&如何写一个好爬虫
我之前一直不想学习Scrapy,觉得不就是一个框架嘛,爬虫难的是分析,是逆向,牛逼的人只靠着requests,用正则和xpath就可以获取需要的数据了。但是随着代码量多了以及爬取的字段多了以后,还是觉得有必要学习一下框架,以及一个爬虫项目需
2020-03-02
数据分析的王炸--numpy&&pandas(2) 数据分析的王炸--numpy&&pandas(2)
这篇主要记录一下pandas。pandas含有使得数据分析百年的更快和更简单的高级数据结构和操作工具。并且pandas是基于numpy来构建的,让以numpy为中心的应用变得简单。 1.Series类型Series和Dataframe是pa
2020-02-29
数据分析的王炸--numpy&&pandas(1) 数据分析的王炸--numpy&&pandas(1)
只要进行过数据分析,对于numpy和pandas这两个工具一定不会陌生,用好了他俩,基本啥问题都能解决,再搭配可视化工具,牛逼。 0.pandas和numpy的关系numpy和pandas在数据分析中非常重要,但其实pandas是基于num
2020-02-28
python一些高级应用的再学习 python一些高级应用的再学习
1.lambda表达式lambda表达式本质上其实就是python的匿名函数。并且也可以作为返回值返回一个匿名函数。这个在下面会具体说到。格式为 lambda 参数列表:函数体。 a = lambda x,y:x+y a(3, 4) 等
2020-02-27
Noisy Channel Model && How to estimate Language Model Noisy Channel Model && How to estimate Language Model
这是接着上一篇博客的,听了一点时间贪心的课其实觉得更多时候我们解决问题应该更专注于其背后的思想。如何考虑问题才是最重要的。 1.Noisy Channel Model先来看一张经典的Noisy Channel Model的模型图: 这张图
2020-02-26
NLP是什么? NLP是什么?
进入研究生这半年来,一直在接触NLP和知识图谱相关的知识,对于一个NLP任务或者项目来说,其实是有着比较通用或者严格的流程的,所谓的模型其实知识系统中的一部分,paper中的研究大多是在已有数据集上进行的模型的评估,但是在应用中,在一个NL
2020-02-23
1 / 4