Se fai acquisti su Zalando, lasci dei dati. I dati vengono creati quando le auto vengono testate, ogni volta che usi un ascensore e quando qualcuno controlla le merci in arrivo in un magazzino. Questi dati contengono conoscenze che possono essere preziose per il tuo successo.
Non hai bisogno di fortuna per trovare l'oro. Hai bisogno del data mining e scoprire uno schema in grandi quantità di dati può valere più di quanto ti sia costato. Tali informazioni possono aiutare le piccole e medie imprese a servire meglio i propri clienti, rendere la loro produzione più efficiente, snellire la loro catena di fornitura, migliorare la qualità del prodotto e ridurre i tempi di fermo.
Amazon, ad esempio, utilizza il data mining per suggerire prodotti: i clienti che hanno acquistato un determinato libro hanno acquistato anche questo. Suggerimenti come questi aumentano le vendite del rivenditore online di circa un terzo.
Il produttore di ascensori Otis analizza i dati insieme all'apprendimento automatico per eseguire la "manutenzione predittiva". Questo nuovo servizio migliora i cicli di vita degli ascensori e aumenta la soddisfazione del cliente.
Definizione di data mining
Il data mining è un metodo assistito da computer che utilizza concetti di tecnologia dell'informazione, statistica e matematica per analizzare i dati. Gli algoritmi di data mining individuano collegamenti logici come schemi o tendenze nei dati. Questo ti aiuta a identificare e lavorare su correlazioni, regolarità, problemi e punti deboli.
Le statistiche aiutano a verificare le ipotesi utilizzando piccoli campioni e dimensioni dei campioni casuali, mentre il data mining genera automaticamente nuove ipotesi utilizzando una quantità infinita di dati. Per l'analisi dei dati vengono utilizzati anche l'intelligenza artificiale (AI) e l'apprendimento automatico.
"Mining", quindi, non si riferisce all'accumulo dei dati, ma all'estrazione di conoscenza dai dati e alla generazione di conoscenza. Ciò va ben oltre processi come la valutazione dei KPI nel controllo.
Il text mining (estrazione di testi) è un metodo correlato che riguarda le informazioni contenute in documenti di testo lunghi. Utilizza dati non strutturati, mentre il data mining di solito utilizza dati strutturati da database.
Il tipo di testo che potrebbe essere analizzato include e-mail, promemoria di discussioni, feed di notizie, moduli Web, discussioni online e risposte aperte in sondaggi.
Queste informazioni possono essere registrate e rese utili tramite il text mining, per scopi come ricerca e sviluppo, marketing e servizi ai clienti. Alcuni servizi di data mining includono la funzione di text mining.
Scoprire la conoscenza nei database
L'estrazione assistita da computer fa parte di un processo complesso. Gli specialisti di database l'hanno definita come standard nel 1989 chiamandola "Knowledge Discovery in Databases" (Scoperta della conoscenza nei database), abbreviata in KDD.
Questo modello mira a evitare di creare una fonte da "insiemi di dati primitivi", dati che non contengono correlazioni. Le fasi di KDD costituiscono un "processo non banale", come sottolineano gli specialisti. Possono essere reiterate per aumentare la qualità dell'analisi.
KDD produce modelli validi, nuovi, potenzialmente utili e chiari da seguire, ricavati dai dati
Il processo di scoperta della conoscenza
Nessun data mining senza Big Data
Se vuoi usare il data mining, hai bisogno dei "Big Data", che significa una quantità grande e rilevante di set di dati. Una definizione semplificata di Big Data è: "una quantità di dati che non rientra più in una tabella Excel". Excel raggiunge il suo limite a 1.048.576 righe e 16.384 colonne.
Oggigiorno, i dati vengono creati in così tanti posti che, in alcune aziende, la capacità di Excel può essere superata in pochi minuti.
Il data mining non richiede alcuna quantità specifica di dati, richiede invece dati rilevanti. Ma può gestire tantissimi bit e byte. Ecco perché possiamo affermare con sicurezza che i Big Data sono il posto giusto per il data mining.
La definizione tecnica di Big Data è raccolta e archiviazione sistematica di quantità di dati grandi, complesse e in rapida evoluzione.
Queste 6 V caratterizzano i Big Data:
- Velocità: la velocità di raccolta, elaborazione e valutazione
- Volume: la quantità di dati
- Varietà: la diversità di insiemi di dati complessi
- Veridicità: veridicità e credibilità dei dati
- Valore: quanto sono preziosi i dati per il business
- Validità: garanzia di qualità dei dati
Un normale server di dati non è abbastanza grande per archiviare ed elaborare queste quantità di dati. Vale la pena lavorare in collaborazione con un data warehouse per elaborare velocemente i Big Data e ottenere analisi in tempo reale.
CRM: una buona fonte per il data mining
Se documenti le tue relazioni con i clienti in modo completo e accurato in un sistema di Gestione delle relazioni con i clienti (CRM), questo è lo scenario migliore per l'utilizzo del data mining.
Puoi cercare schemi nei dati e questi possono aiutarti ad acquisire nuovi clienti o animare i clienti rimasti inattivi per molto tempo. Nei dati potresti addirittura trovare idee su come riconquistare i clienti che hai perso.
Il data mining ti aiuta anche a prendere decisioni strategiche migliori. Le nuove conoscenze influenzano le campagne e i programmi dei clienti, nonché i processi di produzione e i concetti di sicurezza in modo continuo, non una volta sola. Se analizzi i dati in tempo reale, risponderai molto più rapidamente ai segnali di allarme e ai successi.
Direttamente o indirettamente, le nuove conoscenze derivate dai dati aumenteranno le vendite e quindi i profitti. Tutto questo aiuterà a creare valore. Le conoscenze acquisite ti aiuteranno a sviluppare nuovi prodotti e servizi e persino nuovi modelli di business.
Questo è il motivo per cui il software di data mining è molto utile e importante per le piccole e medie imprese e consente loro persino di superare grandi aziende e società.
Prima controlla, poi analizza
Prima di poter iniziare il data mining, è necessario ispezionare e controllare il materiale dei dati. I dati spesso provengono da un'ampia varietà di fonti come database, sensori e monitoraggio.
Questa è la fase in cui i dati originali vengono raccolti in set di dati, rendendoli più adatti al data mining. La cosa fondamentale è eliminare le fonti di errore dai dati raccolti.
Ciò può includere cifre mancanti e informazioni errate. Dati di questo tipo si chiamano "rumorosi". I dati incoerenti danneggiano anche le valutazioni. Possono includere cifre contraddittorie, come un'età che contraddice una data di nascita.
La preparazione dei dati richiede più tempo del data mining stesso. Si parla spesso di un rapporto di 80:20, dove l'80% del tempo è impiegato per la preparazione, il 20% per l'analisi. La preparazione dei dati dipende molto dalla domanda cui si tenta di rispondere utilizzando il data mining.