按年浏览所有博客

2021

神经机器翻译数据集WMT预处理流程

1 分钟阅读

神经机器翻译(Neural Machine Translation,NMT)借助深度神经网络对不同语言的文本进行翻译,本文主要介绍机器翻译数据集WMT16 en-de的预处理过程。

返回顶部 ↑

2020

Linux的so文件到底是干嘛的?浅析Linux的动态链接库

少于 1 分钟阅读

上一篇我们分析了Hello World是如何编译的,即使一个非常简单的程序,也需要依赖C标准库和系统库,链接其实就是把其他第三方库和自己源代码生成的二进制目标文件融合在一起的过程。经过链接之后,那些第三方库中定义的函数就能被调用执行了。早期的一些操作系统一般使用静态链接的方式,现在基本上都在使用动态链接的方式。

数据科学领域岗位选择指南和技能图谱分析

少于 1 分钟阅读

数据相关的职位分为三类:数据分析师、大数据工程师和算法工程师。数据分析师需要丰富的领域知识和敏感的业务思维;大数据工程师为数据分析提供了数据基础和分析工具,需要掌握Spark和Flink等大数据技术,对编程和逻辑思维要求较高;算法工程师的技术要求最高,不仅要懂业务,会大数据,还要熟悉机器学习算法,并且能够将...

K-Means聚类算法原理及Python实践

1 分钟阅读

“聚类”(Clustering)试图将数据集中的样本划分为若干个不相交的子集,每个子集被称为一个“簇”或者“类”,英文名为Cluster。比如鸢尾花数据集(Iris Dataset)中有多个不同的子品种:Setosa、Versicolor、Virginica,不同品种的一些观测数据是具有明显差异的,我们希望根据这...

免费的开源软件到底如何赚钱?

少于 1 分钟阅读

对于绝大多数IT从业人员来说,开源(Open Source)是个绕不过去的话题。开源意味着任何人可以免费地访问,下载,修改源代码,甚至进一步将其用作商业用途。开源往往与免费划等号。有趣的是,虽然免费,但是那些资本驱动的商业巨头们却纷纷投入巨资进行开源软件的开发。那么,开源软件到底是如何赚钱?普通开发者又如何面对开...

情商高的人所看透的四种人生真相

少于 1 分钟阅读

这是一篇Medium平台上获得上万点赞的优质文章,是一篇不错的关于个人成长的建议,不鸡汤,不做作,不是开口闭口“我有一个朋友”。我认为这篇文章对我和很多人的职场和生活都非常有启发性,尤其是当前疫情全球扩散的大环境下,人与自己、人与人之间的矛盾突然爆发的现实下,冷静的思考对我们都非常有必要。我将其翻译成中文,分享给...

返回顶部 ↑