fbpx

Датуми кои го дефинирале развојот на Data Science

Статистиката и статистичките модели се длабоко вкоренети во полето на Data Science. Во почетокот, Data Science, како наука, се темелела само на статистика. Меѓутоа, еволуирајќи заедно со технологијата, оваа наука ја чувствува потребата од „излегување“ од рамките на класичната статистика и ги проширува темелите вклучувајќи концепти и практики како што се Artificial Intelligence, Machine Learning и Internet of Things (понатаму IoT). Со зголемување на обемот на достапни податоци, кои воглавно се добиваат преку однесувањето на регистрирани и нерегистрирани корисници и трендовите на купување, компаниите започнале да ги собираат и складираат тие податоци.
Зголемувањето на обемот на достапни податоци, генерално добиени преку следење на однесувањето на регистрирани и нерегистрирани корисници и трендови на купување, влијае компаниите да развиваат техники и складишта за собирање на овие податоци.
Овој експоненцијален раст на податоците, како и експанзијата на Интернетот и IoT се директни креатори на buzzword-от на 21-иот век, “BIG DATA“.
Сепак, „големите податоци“ и нивната употреба како извор за носење одлуки не се привилегија само на комерцијалните компании и корпорации. Напротив. Области како медицината, инженерството и општествените науки ги користат податоците за научни и работни цели, а секако голем дел од податоците се користат и за подобрување на т.н. „општествено добро“.

Функционален Data Scientist се разликува од општиот статистичар со тоа што поседува солидно разбирање на софтверска архитектура и добро се снаоѓа со неколку програмски јазици. Data Scientist-от дефинира предизвик, идентификува клучни извори на информации и дизајнира рамка за собирање и скрининг на потребните податоци.
Софтверот е обично тој кој е одговорен за собирање, обработка и моделирање на податоците. Понатаму, софтверот ги користи принципите на Data Science и сите поврзани под-полиња и практики опфатени во рамките на Data Science, за да добие подлабок увид во податоците. Овој увид, понатаму, е предмет на анализа на Data Scientist-от. По спроведената анализа, Data Scientist-от може да извлече заклучоци, т.е. да најде решение за поставениот предизвик.

Позначајни датуми (години) кои обележуваат т.н. “milestones” во развојот на Data Science се следниве:

Во 1962 година, John W. Tukey пишува за промена во светот на статистиката, велејќи: „... како што гледав дека математичката статистика еволуира, имав причина да се запрашам и да се сомневам... дојдов да мислам дека мојот централен интерес е во анализата на податоци...". Tukey се реферира на спојувањето на статистички податоци и компјутери, во време кога резултатите од статистиката би биле презентирани во неколку часа, за разлика од деновите или седмиците кои би биле потребни доколку би се извршувале рачно.

Во 1974 година, Peter Naur го пишува трудот “Concise Survey of Computer Methods“, во кој прв го употребува терминот “Data Science”. Наур ја претставува сопствената дефиниција на новопоставениот концепт: „Науката за справување со податоци, откако тие се дефинирани, додека односот на податоците со она што тие го претставуваат е делегиран на други полиња и науки".
"Науката за справување со податоци, откако тие се дефинирани, додека односот на податоците со она што тие го претставуваат е делегиран на други полиња и науки".

Во 1977 година, е формиран IASC или International Association for Statistical Computing (Меѓународна асоцијација за статистичко пресметување). Првата фраза од нивната изјава за мисијата гласи: „Мисијата на IASC е да ја поврзе традиционалната статистичка методологија, современата компјутерска технологија и знаењето на експертите за доменот со цел да ги конвертираат податоците во информации и знаење".

Во 1977 година, Tukey пишува втор документ под наслов „Анализа на истражувачки податоци“, тврдејќи ја важноста на користење на податоците при изборот на хипотези за тестирање. Во овој документ, Tukey, исто така вели дека потврдната анализа на податоци и анализата на прелиминарни податоци треба да работат рака до рака.

Во 1989 година, Discovery Knowledge во Базите на податоци, која ќе прерасне во ACM SIGKDD конференцијата за откривање на знаења и податочно рударење, ја организира својата прва работилница.

Во 1994 година, списанието Business Week ја раскажува приказната со наслов Database Marketing, каде открива застрашувачки делувања на новинарски компании кои собираат големи количини лични податоци, со план да започнат „чудни нови маркетинг кампањи“. Поплавата на податоците е, во најдобар случај, збунувачка за менаџерите на компаниите, кои се обидуваат да одлучат што да прават со толку многу неврзани информации.

Во 1999 година, Jacob Zahavi ја истакнува потребата од нови алатки за справување со огромните количини информации достапни за бизнисите. Во “Mining Data for Nuggets of Knowledge” изјавува: „Приспособливоста е огромно прашање во Data Mining... Конвенционалните статистички методи добро функционираат со мали множества на податоци, но денешните бази на податоци вклучуваат милиони редови и резултати од колони на податоци... Друг технички предизвик е развивање модели кои можат да ја подобрат работата со анализа на податоци, откривање на нелинеарни односи и интеракција помеѓу елементите... Треба да се развијат специјални алатки за податочно рударење кои ќе ги адресираат одлуките донесени на веб-страните... "

Во 2001 година е создаден Software-as-a-Service (SaaS), а со тоа почнува експанзијата за користење Cloud-базирани апликации.

Во 2001 година, William S. Cleveland изложува планови за обука на Data Scientist, кој би ги задоволил потребите на иднината. Тој презентира акционен план со наслов: “Data Science: An Action Plan for Expanding the Technical Areas of the field of Statistics”. Cleveland опишува како да се зголеми техничкото искуство и опсегот на аналитичари на податоци и да се определат шест области на студии на универзитети. Понатаму, промовира развој на специфични ресурси за истражување во секоја од шесте области. Неговиот план, исто така, се однесува на владините и корпоративните истражувања.

Во 2002 година, Меѓународниот совет за наука: Комитетот за Data Science и технологија започнува со објавување на Data Science Journal, публикација фокусирана на прашања како што се опис на системите за податоци, нивно објавување на интернет, апликации и правни прашања.

Во 2006 година, излегува Hadoop 0.1.0, open-source, нерелациона база на податоци. Hadoop е базиран на Nutch, друга база на податоци со отворен код.

Во 2008 година, кованицата "Data Scientist" станува buzzword, а на крајот и дел од јазикот. DJ Patil и Jeff Hammerbacher, од LinkedIn и Facebook, добиваат признание за иницирање на неговата употреба како клучен збор.

Во 2009 година, повторно е воведен терминот NoSQL (варијација на овој термин е користена од 1998 година) од Јохан Оскарсон, кога организира дискусија за „бази на податоци со отворен код, нерелациони бази на податоци".

Во 2011 година, бројот на огласи за работа за Data Scientist се зголемува за 15 000 %. Се зголемува и и бројот на семинари и конференции посветени на Data Science и Big Data. Бидејќи Data Science се покажува како исклучително профитабилна гранка, веднаш станува дел од корпоративната култура.

Во 2011 година, James Dixon, CTO на Pentaho, го промовира концептот на Data Lakes како замена за досегашните Data Warehouses. Dixon ја дефинира разликата помеѓу двете. Неговиот заклучок е дека додека Data Warehouse губи време и енергија поради тоа што ги категоризира податоците на нивната влезна точка, Data Lake ги прима информациите такви какви што, користејќи нерелациона база на податоци (NoSQL) и не ги категоризира, туку само ги чува податоците.

Во 2013 година, IBM споделува статистика која покажува дека 90 % од податоците во светот се создадени во последните две години.

Во 2015 година, користејќи техники на Deep Learning, Google Voice - Google’s speech recognition доживува скок на перформанси од неверојатни 49 %.

Во 2015 година, Jack Clarks од Bloomberg изјавува дека 2015 езначајна година за Artificial Intelligence. Во Google, бројот на проекти кои практикуваат некаков вид на Artificial Intelligence се зголемува од „привремена употреба“ до повеќе од 2 700 проекти во текот на годината.

Flash forward до 2019, мај, кога Data Masters, првата компанија специјализирана во BI и ML во Република Северна Македонија, нуди обуки за Data Science и Моделирање на податоци и Business Intelligence.