【数盟致力于成为最卓越的数据科学社区,聚焦于大数据、分析挖掘、数据可视化领域,业务范围:线下活动、在线课程、猎头服务、项目对接】
谈到数据新闻,总也绕不开技术。记者不懂点行话,还怎么跟团队技术小伙伴沟通?

两位主讲嘉宾
在NICAR会议上,数据极客同时也为NBC4调查记者的Tisha 一起和ProPublica新闻应用开发师Sisi,向大家介绍了一些熟悉又陌生的技术,分享了不少软件、互联网平台等。
赶快熟悉下,创作出更精彩的数据新闻作品吧!
1
基本术语CMS
Content management system(内容管理系统),可以通过CMS实现内容管理及发布,CMS一般基于模块式的开发,每个新闻编辑室都会有内容管理系统,最为典型的CMS就是博客系统”wordpress“。
Modeling
Statisticalormathematicalmodeling(数据建模),建模一般是由科学家或者研究者完成,能协助我们理解系统如何运作。
AWS
Amazonwebservices(亚马逊网路服务系统),你可以向其付费来运营你的网站。
OpSec
Operational Security(运营安全),作为记者,如何保护自己的新闻源?在斯诺登事件之后,这个问题变得更为重大。
2
编程相关
编程实际上就是与电脑的沟通对话,以下这些就是我们跟电脑沟通时所用到的语言。
Ruby和Python
这是两款常用的编程语言,Ruby和Python在手,天下我有。列如,在做非法枪支买卖的专题时,你可以用Ruby扒取网站上的枪支广告。
Node.js
Node.js是可用于服务器端的javascript运行环境,一般适用于高并发的应用场景。
Django,Rails
这两个叫做“框架结构”,运用Django和Rails构建框架,这样你就可以在互联网里创建出成百上千的网页了。Rails基于Ruby,Django则基于Python。
API
ApplicationProgrammingInterface(应用编程接口),计算机读取网页的“捷径”。不少公司(列如Twitter)都开放了API,别的程序员就可以运用这些公司的数据来创造一些有趣的项目。
Grunt
一个提供预览和测试html/css/js的软件,确保代码的可以正常运行。(笔者认为这个程序很有利于写出干净有序的代码,大家不妨一试。)
3
网站/服务/产品CodePen,JSFiddle
在线编辑html/css/js语句和分享的网站。
StackOverflow
你可以在这个网站上提问,尤其是关于编程的问题。
Tabula
从pdf中提取数据的免费软件。
4
数据类型电脑储存数据会有多种格式,以下三种是可以相互转换的。
CSV
逗号分隔值文件格式,其文件以纯文本形式存储表格数据(数字和文本)。
XML
用这些<tags><that><look><like><this>来分隔数据,是一种用于标记电子文件使其具有结构性的标记语言。
JSON
一种轻量级的数据交换格式,JSON语法是JavaScript对象表明语法的子集。
5
地图绘制
ESRI
美国环境系统研究所公司,开发了ArcGIS工具。
QGIS
开源免费地图软件。免费,但是没有ArcGIS好用。
Tilemill
制作地图的软件。
Mapbox
Tilemill的所属公司。
FusionTables
一项Google服务,你可以上传数据,并运用Googlemaps来制作地图。
CartoDB
一个制作并在线发布地图的网站。页面精良,有付费和免费版本。
ShapeFile
运用点、线、多边形来描述形状的描述的文件。我们可以运用这些文件来制作地图或者地图上的图形。包含有郡县的边缘或者是湖泊的界线。
6
数据分析
SQL
结构化查询语言,用于存取数据以及查询、更新和管理关系数据库系统。
MySQL
一个十分热门的数据库管理系统。
SQLite
生产嵌入式SQL数据库的软件,可以不通过服务器来建立数据库。
PostgreSQL
更为高阶的SQL数据库管理系统。.
pgAdmin
PostgreSQL的管理界面。
RegularExpressions
正则表达式,一般被用来检索、替换那些符合某个模式的文本。
OpenRefine
一个免费且强劲清理数据的软件。
DocumentCloud
由记者创建的,一个可以上传、搜索pdf并可以对pdf进行注释的网站。
GoogleAnalytics
Google创建的网页流量分析软件。
7
统计Regression
回归,统计术语。测试变量间相互依赖的定量关系的一种统计分析方法。
SPSS
付费的统计分析软件。
R
一年前江湖上还没有R的传说,目前人们都在用了。这是一个基于统计计算和绘图的的编程语言。
RStudio
一款好用的R语言编辑器。
dplyr
最近两个月刚发布,更快更简易地操作、探索数据的R语言软件包。
8
SensorJournalism传感器
SensorJournalism
专业记者和自媒体运营者通过传感器收集和利用海量信息与数据来“讲故事”的新闻生产模式。
Arduino,RaspberryPi
两种类似的硬件,运用其附带的软件进行编程,改造成传感器。
本文由“镝次元数据传媒实验室”授权转载,在此向原作者致谢!

作者:吴嘉川刘佳昕
翻译:曾明 赵磊
编辑:曾明
运营:刘雅露
作者介绍:
刘佳昕:迈阿密大学新闻专业在读研究生;数据新闻爱好者。
个人网站: www.jiaxinliu.me
Email:theopenwindow1990@gmail.com
吴嘉川:
哥伦比亚大学数据新闻项目(LEDE program)毕业,路透(纽约)data visualization developer
intern;数据可视化和环境报道爱好者。
Website: jiachuanwu.com
Email:wjcjenny@gmail.com
镝次元数据传媒实验室原创作品,授权请加微信dyclub2015或直接署名如下,欢迎并感谢转发分享!
镝次元数据传媒实验室,以武汉大学为研究基地,对接丰富的数据资源和媒体资源,以产学研结合方式,积极参与和推动数据新闻的人才培养、技术创新、行业生长和理论发展。
关于我们ID:DataScientistUnion
数盟网站:www.dataunion.org
数盟微博:@数盟社区
数盟微信:DataScientistUnion
若您希望给数盟【投稿】或与我们【合作】,或成为数盟的翻译【志愿者】,请在数盟公众号的微信聊天框中留言,包含上述关键词即可。我们会在第一时间与您联系。



