Data Handling: Import, Cleaning and Visualisation Lecture 7: Data - PowerPoint PPT Presentation

9/12/2019 Data Handling: Import, Cleaning and Visualisation Data Handling: Import, Cleaning and Visualisation Lecture 7: Data Sources, Data Gathering, Data Import Prof. Dr. Ulrich Matter 24/10/2019 file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 1/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Recap: Programming with Data file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 2/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Loops · Repeatedly execute a sequence of commands. · Known or unknown number of iterations. · Types: ‘for-loop’ and ‘while-loop’. - ‘for-loop’: number of iterations typically known. - ’while-loop: number of iterations typically not known. file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 3/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation for-loop file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 4/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation while-loop file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 5/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Booleans and logical statements 2+2 == 4 ## [1] TRUE 3+3 == 7 ## [1] FALSE 4!=7 ## [1] TRUE file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 6/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Booleans and logical statements condition <- TRUE if (condition) { print("This is true!") } else { print("This is false!") } ## [1] "This is true!" file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 7/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation R functions · f : X → Y · ‘Take a variable/parameter value as input and provide value as X Y output’ · For example, . 2 × X = Y · R functions take ‘parameter values’ as input, process those values according to a predefined program, and ‘return’ the results. file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 8/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation R functions # define our own function to compute the mean, given a numeric vector my_mean <- function(x) { x_bar <- sum(x) / length(x) return(x_bar) } file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 9/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Today: Putting it All Together file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 10/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Putting it all together · You know what ‘data’ is … · You know how digital data is stored … · You know how to write computer code … · You know the basics of programming in R … These are the basics to handel data properly! This is the fundament of data science! file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 11/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation We are ready to start the data science journey The first key bottleneck in the data pipeline: Gather and import the data! file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 12/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Sources/formats in economics file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 13/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Sources/formats in economics · CSV (typical for rectangular/table-like data) · Variants of CSV (tab-delimited, fix length etc.) · XML and JSON (useful for complex/high-dimensional data sets) · HTML (a markup language to define the structure and layout of webpages) · Unstructured text file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 14/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Sources/formats in economics · Excel spreadsheets ( .xls ) · Formats specific to statistical software packages (SPSS: .sav , STATA: .dat , etc.) · Built-in R datasets · Binary formats file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 15/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Data Gathering Procedure file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 16/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Organize your data pipeline! · One R script to gather/import data. · The beginning of your data pipeline! file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 17/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation A Template/Blueprint Tell your future self what this script is all about ####################################################################### # Data Handling Course: Example Script for Data Gathering and Import # # Imports data from ... # Input: links to data sources (data comes in ... format) # Output: cleaned data as CSV # # U. Matter, St. Gallen, 2018 ####################################################################### file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 18/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Script sections · Recall: programming tasks can often be split into smaller tasks. · Use sections to implement task-by-task and keep order. · In RStudio: Use ---------- to indicate the beginning of sections. · Start with a ‘meta’-section. file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 19/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Script sections ####################################################################### # Data Handling Course: Example Script for Data Gathering and Import # # Imports data from ... # Input: links to data sources (data comes in ... format) # Output: cleaned data as CSV # # U. Matter, St. Gallen, 2018 ####################################################################### # SET UP -------------- # load packages library(tidyverse) # set fix variables INPUT_PATH <- "/rawdata" OUTPUT_FILE <- "/final_data/datafile.csv" file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 20/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Script sections Finally we add sections with the actual code (in the case of a data import script, maybe one section per data source) ####################################################################### # Project XY: Data Gathering and Import # # This script is the first part of the data pipeline of project XY. # It imports data from ... # Input: links to data sources (data comes in ... format) # Output: cleaned data as CSV # # U. Matter, St. Gallen, 2018 ####################################################################### # SET UP -------------- # load packages library(tidyverse) # set fix variables INPUT_PATH <- "/rawdata" OUTPUT_FILE <- "/final_data/datafile.csv" file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 21/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Loading/Importing Rectangular Data file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 22/54

9/12/2019 Data Handling: Import, Cleaning and Visualisation Loading built-in datasets In order to load such datasets, simply use the data() -function: data(swiss) file:///home/umatter/Dropbox/T eaching/HSG/datahandling/datahandling/materials/slides/html/07_data_import.html#1 23/54

Data Handling: Import, Cleaning and Visualisation Lecture 7: Data - PowerPoint PPT Presentation

9/12/2019 Data Handling: Import, Cleaning and Visualisation Data Handling: Import, Cleaning and Visualisation Lecture 7: Data Sources, Data Gathering, Data Import Prof. Dr. Ulrich Matter 24/10/2019 file:///home/umatter/Dropbox/T

Data Handling: Import, Cleaning and Visualisation Lecture 3: Data Storage and Data Structures

Data Handling: Import, Cleaning and Visualisation Lecture 8: Data Preparation Prof. Dr. Ulrich

Workflow basics, RMarkdown, git/Github Cleaning up Cleaning up Cleaning up Cleaning up

Data Handling: Import, Cleaning and Visualisation Lecture 11: Visualisation and Dynamic Documents

Floor Cleaning By Vacuum After vacuum Cleaning After vacuum Cleaning After vacuum Cleaning

Diagnose data for cleaning Cleaning Data in Python Cleaning data Prepare data for analysis

Data Handling: Import, Cleaning and Visualisation Lecture 1 : Introduction Prof. Dr. Ulrich

Presentation June 9, 2016 In [1]: from SchellingModel2Functions import * from Entropy_Estimator

In [144]: # HIDDEN import matplotlib matplotlib.use('Agg') from datascience import * % matplotlib

Data Cleaning Nan Tang, QCRI Big Data Cleaning Nan Tang, QCRI Big Data Cleaning Nan Tang,

Science Visualisation Paul Bourke iVEC @ University of Western Australia Contents What is

Uno sguardo a Scikit-Learn (II) FACE RECOGNITION import numpy as np import matplotlib.pyplot as

Sampling Sampling In [1]: % matplotlib inline from matplotlib import pyplot as plt import mxnet

Extension: Combiner Functions import org.apache.hadoop.io.IntWritable; import

fine-tuning April 9, 2019 1 Fine Tuning In [1]: % matplotlib inline import d2l from mxnet

Cause-Effect Pairs http://www.kaggle.com/c/cause-effect-pairs/ Goals: Introduction to the

The Invariant Theory of Unipotent Groups Frank Grosshans Aachen RWTH June, 2010 Grosshans (West

Kisses To A Kiss Humid seal of soft affections, Tend'rest pledge of future bliss, Dearest

On the work and persona of Gilles Lachaud Sudhir R. Ghorpade Department of Mathematics Indian

XSRF How it works 3 - form is submitted on bank.com 4 - bank.com helpfully transfers money

Secure Programming Laboratory 3: Web app security Joseph Hallett and David Aspinall, Informatics

Experiences In Cyber Security Education: The MIT Lincoln Laboratory Capture-the-Flag Exercise*

Multidimensional Scaling Max Turgeon STAT 4690Applied Multivariate Analysis Recap: PCA

Computer Security DD2395 http://www.csc.kth.se/utbildning/kth/kurser/DD2395/dasakh11/ Fall 2011