Smart work

Sapere è potere. Data mining (o estrazione di dati) significa saperne di più

Ogni azienda produce dati. Il data mining lo utilizza per estrarre preziose conoscenze per un business di successo. I Job Wizard ti spiegano come puoi trarne vantaggio.

05.08.2021
9 minuti 9 minuti
img_keyvisual_post_kw30_DATA_MINING.jpg
Contenuti
Oggigiorno molti processi aziendali si basano sui dati. Il data mining ti aiuta a riconoscere tendenze e modelli in modo da poter migliorare il tuo processo, sviluppare la tua attività e avere più successo. Ne vale la pena per le PMI. Ecco perché.

Se fai acquisti su Zalando, lasci dei dati. I dati vengono creati quando le auto vengono testate, ogni volta che usi un ascensore e quando qualcuno controlla le merci in arrivo in un magazzino. Questi dati contengono conoscenze che possono essere preziose per il tuo successo.

Non hai bisogno di fortuna per trovare l'oro. Hai bisogno del data mining e scoprire uno schema in grandi quantità di dati può valere più di quanto ti sia costato. Tali informazioni possono aiutare le piccole e medie imprese a servire meglio i propri clienti, rendere la loro produzione più efficiente, snellire la loro catena di fornitura, migliorare la qualità del prodotto e ridurre i tempi di fermo.

Amazon, ad esempio, utilizza il data mining per suggerire prodotti: i clienti che hanno acquistato un determinato libro hanno acquistato anche questo. Suggerimenti come questi aumentano le vendite del rivenditore online di circa un terzo.

Il produttore di ascensori Otis analizza i dati insieme all'apprendimento automatico per eseguire la "manutenzione predittiva". Questo nuovo servizio migliora i cicli di vita degli ascensori e aumenta la soddisfazione del cliente.

Definizione di data mining

Il data mining è un metodo assistito da computer che utilizza concetti di tecnologia dell'informazione, statistica e matematica per analizzare i dati. Gli algoritmi di data mining individuano collegamenti logici come schemi o tendenze nei dati. Questo ti aiuta a identificare e lavorare su correlazioni, regolarità, problemi e punti deboli.

Le statistiche aiutano a verificare le ipotesi utilizzando piccoli campioni e dimensioni dei campioni casuali, mentre il data mining genera automaticamente nuove ipotesi utilizzando una quantità infinita di dati. Per l'analisi dei dati vengono utilizzati anche l'intelligenza artificiale (AI) e l'apprendimento automatico.

"Mining", quindi, non si riferisce all'accumulo dei dati, ma all'estrazione di conoscenza dai dati e alla generazione di conoscenza. Ciò va ben oltre processi come la valutazione dei KPI nel controllo.

Il text mining (estrazione di testi) è un metodo correlato che riguarda le informazioni contenute in documenti di testo lunghi. Utilizza dati non strutturati, mentre il data mining di solito utilizza dati strutturati da database.

Il tipo di testo che potrebbe essere analizzato include e-mail, promemoria di discussioni, feed di notizie, moduli Web, discussioni online e risposte aperte in sondaggi.

Queste informazioni possono essere registrate e rese utili tramite il text mining, per scopi come ricerca e sviluppo, marketing e servizi ai clienti. Alcuni servizi di data mining includono la funzione di text mining.

Scoprire la conoscenza nei database

L'estrazione assistita da computer fa parte di un processo complesso. Gli specialisti di database l'hanno definita come standard nel 1989 chiamandola "Knowledge Discovery in Databases" (Scoperta della conoscenza nei database), abbreviata in KDD.

Questo modello mira a evitare di creare una fonte da "insiemi di dati primitivi", dati che non contengono correlazioni. Le fasi di KDD costituiscono un "processo non banale", come sottolineano gli specialisti. Possono essere reiterate per aumentare la qualità dell'analisi.

KDD produce modelli validi, nuovi, potenzialmente utili e chiari da seguire, ricavati dai dati

 
Infografica delle diverse fasi della scoperta della conoscenza nei database

Il processo di scoperta della conoscenza


Nessun data mining senza Big Data

Se vuoi usare il data mining, hai bisogno dei "Big Data", che significa una quantità grande e rilevante di set di dati. Una definizione semplificata di Big Data è: "una quantità di dati che non rientra più in una tabella Excel". Excel raggiunge il suo limite a 1.048.576 righe e 16.384 colonne.

Oggigiorno, i dati vengono creati in così tanti posti che, in alcune aziende, la capacità di Excel può essere superata in pochi minuti.

Il data mining non richiede alcuna quantità specifica di dati, richiede invece dati rilevanti. Ma può gestire tantissimi bit e byte. Ecco perché possiamo affermare con sicurezza che i Big Data sono il posto giusto per il data mining.

La definizione tecnica di Big Data è raccolta e archiviazione sistematica di quantità di dati grandi, complesse e in rapida evoluzione.

Queste 6 V caratterizzano i Big Data:

  1. Velocità: la velocità di raccolta, elaborazione e valutazione
  2. Volume: la quantità di dati
  3. Varietà: la diversità di insiemi di dati complessi
  4. Veridicità: veridicità e credibilità dei dati
  5. Valore: quanto sono preziosi i dati per il business
  6. Validità: garanzia di qualità dei dati

Un normale server di dati non è abbastanza grande per archiviare ed elaborare queste quantità di dati. Vale la pena lavorare in collaborazione con un data warehouse per elaborare velocemente i Big Data e ottenere analisi in tempo reale.

CRM: una buona fonte per il data mining

Se documenti le tue relazioni con i clienti in modo completo e accurato in un sistema di Gestione delle relazioni con i clienti (CRM), questo è lo scenario migliore per l'utilizzo del data mining.

Puoi cercare schemi nei dati e questi possono aiutarti ad acquisire nuovi clienti o animare i clienti rimasti inattivi per molto tempo. Nei dati potresti addirittura trovare idee su come riconquistare i clienti che hai perso.

Il data mining ti aiuta anche a prendere decisioni strategiche migliori. Le nuove conoscenze influenzano le campagne e i programmi dei clienti, nonché i processi di produzione e i concetti di sicurezza in modo continuo, non una volta sola. Se analizzi i dati in tempo reale, risponderai molto più rapidamente ai segnali di allarme e ai successi.

Direttamente o indirettamente, le nuove conoscenze derivate dai dati aumenteranno le vendite e quindi i profitti. Tutto questo aiuterà a creare valore. Le conoscenze acquisite ti aiuteranno a sviluppare nuovi prodotti e servizi e persino nuovi modelli di business.

Questo è il motivo per cui il software di data mining è molto utile e importante per le piccole e medie imprese e consente loro persino di superare grandi aziende e società.

Prima controlla, poi analizza

Prima di poter iniziare il data mining, è necessario ispezionare e controllare il materiale dei dati. I dati spesso provengono da un'ampia varietà di fonti come database, sensori e monitoraggio.

Questa è la fase in cui i dati originali vengono raccolti in set di dati, rendendoli più adatti al data mining. La cosa fondamentale è eliminare le fonti di errore dai dati raccolti.

Ciò può includere cifre mancanti e informazioni errate. Dati di questo tipo si chiamano "rumorosi". I dati incoerenti danneggiano anche le valutazioni. Possono includere cifre contraddittorie, come un'età che contraddice una data di nascita.

La preparazione dei dati richiede più tempo del data mining stesso. Si parla spesso di un rapporto di 80:20, dove l'80% del tempo è impiegato per la preparazione, il 20% per l'analisi. La preparazione dei dati dipende molto dalla domanda cui si tenta di rispondere utilizzando il data mining.

ULTERIORI INFORMAZIONI

Metodi di data mining
Vengono quindi utilizzati vari processi per la ricerca di schemi e correlazioni. Il focus sarà su domande di osservazione o domande di previsione.
 
  1. Riconoscimento dei valori anomali: quali oggetti non seguono le regole dell'interdipendenza e perché?
  2. Analisi dei cluster: quali somiglianze si verificano spesso e possono essere raccolte in gruppi a tal proposito?
  3. Classificazione: a quali categorie predefinite appartengono questi dati, a cui non erano stati assegnati in precedenza?
  4. Analisi di associazione: quali due o più elementi indipendenti sono correlati e si verificano frequentemente insieme?
  5. Analisi di regressione: quale relazione esiste tra una variabile dipendente e una o più variabili indipendenti?
  6. Analisi predittiva: quali previsioni si possono fare utilizzando una variabile?

L'analisi delle associazioni, ad esempio, costituisce la base per i consigli sugli acquisti online. Le banche utilizzano la classificazione per verificare le valutazioni del credito. Il clustering è il processo di analisi utilizzato per definire i gruppi per campagne pubblicitarie mirate.
 

Software di data mining, in-house o su cloud?

Ci sono vari strumenti, tutti con pro e contro. Ecco perché si è dimostrato utile impiegare più di uno strumento per compiti diversi. I prodotti e i servizi Web basati su cloud sono convenienti e facili da scalare verso l'alto e verso il basso per ulteriori utenti e analisi. Questo rende facile andare avanti.

  • SAS: fornitore leader dal 1976. Questo software di data mining è utilizzato da molti grandi clienti. Non è economico, ma è scalabile. Un'interfaccia utente grafica lo rende molto facile da usare.
  • KNIME: un team dell'Università di Costanza sviluppa questo software open source dal 2004. Questo processo è ora supportato da una vasta comunità globale di sviluppatori. Esiste anche una versione commerciale.
  • Google Analytics: questo strumento Web gratuito è facile da usare per valutare le prestazioni Web, le campagne sui social media e l'attività dei clienti online.
  • Periscope Data: questa start-up californiana ha lanciato con successo sul mercato il suo servizio basato su cloud. Da allora l'azienda è stata acquistata da Sisense per ampliare il proprio portafoglio.
  • IBM Cognos Analysis: non è famoso come IBM Watson, ma è altrettanto intelligente. Lo strumento offre self-service, è scalabile e può essere utilizzato sia su cloud sia sul proprio sistema.

Il data mining può iniziare subito

Se pensi che il data mining ti aiuterà a digitalizzare processi e prodotti, inizia ispezionando tutte le tue fonti di dati disponibili. Dovrai quindi verificare la qualità dei dati: i dati sono completi, chiari e corretti?

Potresti voler includere origini dati esterne nella tua analisi. Alcuni, come i dati meteo e sul traffico, sono pubblici. Altri potrebbero essere soggetti a licenza. Non iniziare il lavoro da solo, trova un collega con cui lavorare.

Data mining, uno strumento per tutti

I futuri dipendenti dovranno tutti comprendere e lavorare con i dati, quindi nessuno avrà bisogno di programmare computer, studiare scienza dei dati o sviluppare propri algoritmi.

La cosa più importante di cui hai bisogno come utente è la curiosità. La tua mente indagatrice porrà le domande a cui i metodi di data mining cercano di rispondere.

Tutti gli strumenti di oggi offrono buoni modi per visualizzare i risultati. I dashboard mostrano agli utenti le valutazioni dei problemi per loro rilevanti, configurati e definiti personalmente.

Presto il tuo team discuterà regolarmente delle correlazioni nascoste e di come utilizzarle. Benvenuto nel business guidato dai dati!

Potrebbe interessarti anche:

Cosa significa VUCA? E perché queste quattro lettere aiutano le aziende a gestire meglio la complessità?

La trasformazione digitale sta scuotendo il mondo. I quattro termini che VUCA...

Smart work
14.11.2021

Gestione della complessità: semplificare i flussi di lavoro, gestire i dati

Più grande è l'azienda, meno chiare sono le strutture: la gestione della...

Smart work
20.02.2021
Da noi per te: