Incrociare due tabelle: dplyr::inner_join vs merge

Continuiamo la discussione iniziata in questo post, dove Davide spiegava una procedura per incrociare due tabelle di dati come le due seguenti: library(tidyverse) ragione_sociale <- c("comune paperopoli", "canile pluto", "archimede pitagorico") codice_cliente <- c(12345, 67890, 54321) servizi <- c(4, 5, 2) servizi_disattivati <- tibble(ragione_sociale, codice_cliente, servizi)   Tabella clienti ragione_sociale codice_cliente agente CANILE DI PLUTO 67890 paperino ArchimedePitagorico 54321 gastone Comune di Paperopoli 12345 paperoga   Tabella servizi disattivati ragione_sociale codice_cliente servizi comune paperopoli 12345 4 canile pluto 67890 5 archimede pitagorico 54321 2 L’obiettivo era quello di aggiungere alla tabella servizi_disattivati la variabile agente appartenente alla tabella clienti, usando .. Leggi tutto

Connessione di R ad SQL Server 2012/2014

Uno dei più importanti aspetti di R è la gestione dei dati, i quali possono essere contenuti in diverse fonti, siano essi file csv, data base, file excel o altro ancora. In questa breve guida verrà illustrato come effettuare la connessione tra R e Microsoft SQL Server in modo da poter estrarre i dati direttamente da un database usando le istruzioni SQL. L’approccio descritto in questa guida è supportato sia da SQL Server 2012 che dalla più recente versione 2014. È possibile connettersi ad SQL Server in diversi modi, uno dei quali è per mezzo dell’uso di ODBS, che è .. Leggi tutto

La variabile età

Svincolarsi da vecchi retaggi del passato, tanto consolidati da diventare prassi, non è semplice. Le abitudini ottimizzano il nostro modo di agire, rendendolo per molti aspetti più efficiente. Capita però che i tempi cambino e certe abitudini ci portino a sprecare risorse invece di risparmiale. Qualche decennio fa, nelle nostre vite è entrato il computer. Non solo: negli ultimi anni le prestazioni di calcolo di queste macchine sono diventate tali da consentire elaborazioni quasi impensabili fino a soli dieci anni fa. Eppure, nonostante questo, per certi aspetti continuiamo a costruire i dataset in modo simile a come venivano costruiti carta .. Leggi tutto

Stima della sovrapposizione tra due distribuzioni empiriche con il pacchetto ‘overlapping’

In questo post vogliamo illustrare con alcuni semplici esempi come utilizzare la funzione overlap() del pacchetto overlapping per stimare il grado di sovrapposizione tra due distribuzioni empiriche. Esempio 1 Supponiamo di avere raccolto dei dati in due gruppi di 100 soggetti ciascuno rispetto ad una generica variabile Y, espressa da punteggi teoricamente compresi tra 0 e 30, e di essere interessati a valutare se i due gruppi possano considerarsi campioni provenienti da popolazioni con la stessa media. Di seguito si riporta il codice per la costruzione di un data frame che include la variabile Y, che contiene i punteggi, e .. Leggi tutto