2021 년 데이터 과학 학습 로드맵
데이터 과학 적용 기술을 습득하기위한 자신 만의 학습 트랙 구축
data:image/s3,"s3://crabby-images/9dbc4/9dbc4f4a3534103497af61d3d92adbda16cca344" alt="Image for post"
날짜를 제외하고는 아무것도 변하지 않지만 새해는 모든 사람에게 새로운 시작의 희망을 채 웁니다.약간의 계획, 잘 계획된 목표 및 학습 로드맵을 추가하면 성장으로 가득 찬 1 년을위한 훌륭한 레시피를 만들 수 있습니다.
이 게시물은 귀하에게학습 프레임 워크, 리소스 및 프로젝트 아이디어데이터 과학의 전문성을 보여주는 견고한 작업 포트폴리오를 구축합니다.
부인 성명:
정의 된 로드맵은 데이터 과학에 대한 저의 작은 경험을 바탕으로 준비되었습니다.이것은 전체적이고 최종적인 학습 계획이 아닙니다.로드맵은 특정 분야 / 연구 분야에 더 적합하도록 변경 될 수 있습니다.또한 개인적으로 파이썬을 사용하는 것을 선호하기 때문에 이것은 파이썬을 염두에두고 만들어졌습니다.
학습 로드맵이란 무엇입니까?
내 겸손한 의견으로는 리어엔ing 로드맵은 다음과 같은 세부 정보가 포함 된 다단계 스킬 맵을 도표화하는 커리큘럼의 확장입니다.뭐연마하고 싶은 기술,어떻게각 수준에서 결과를 측정하고기법각 기술을 더 익히기 위해.
내 로드맵은 실제 응용 프로그램의 복잡성과 공통성을 기반으로 각 수준에 가중치를 할당합니다.또한 초보자가 연습 / 프로젝트를 통해 각 레벨을 완료하는 데 걸리는 예상 시간을 추가했습니다.
다음은 업계에서 복잡성과 적용 순서로 높은 수준의 기술을 묘사하는 피라미드입니다.
data:image/s3,"s3://crabby-images/0e533/0e5338f5055ea7062c9c4d4fd0d959322f31b91f" alt="Image for post"
이것은 우리 프레임 워크의 기반이 될 것입니다. 이제 우리는보다 구체적이고 측정 가능한 세부 사항으로 프레임 워크를 완성하기 위해 이러한 각 계층을 심층 분석해야합니다.
특이성은 각 계층과 리소스에 중요한 주제를 등록하여 해당 주제를 마스터하는 데 도움이됩니다.
학습 한 주제를 여러 실제 프로젝트에 적용하여이를 측정 할 수 있습니다.숙련도를 측정하는 데 사용할 수있는 몇 가지 프로젝트 아이디어, 포털 및 플랫폼을 추가했습니다.
Imp 참고 : 한 번에 하루 씩, 하루에 비디오 / 블로그 / 장을 하나씩 가져 가십시오.커버 할 광범위한 스펙트럼입니다.자신을 압도하지 마십시오!
아래부터 시작하여 이러한 각 계층에 대해 자세히 살펴 보겠습니다.
1. 프로그래밍 또는 소프트웨어 공학
(예상 시간 : 2-3 개월)
첫째, 건전한 프로그래밍 기술이 있는지 확인하십시오.모든 데이터 과학 작업 설명은 적어도 하나의 언어에 대한 프로그래밍 전문 지식을 요구합니다.
구체적인 주제는 다음과 같습니다.
- Common data structures(data types, lists, dictionaries, sets, tuples), writing functions, logic, control flow, searching and sorting algorithms, object-oriented programming, and working with external libraries.
- SQL scripting: Querying databases using joins, aggregations, and subqueries
- Comfortable with using the Terminal, version control in Git, and using GitHub
Python 용 리소스 :
- learnpython.org [free]— a free resource for beginners. It covers all the basic programming topics from scratch. You get an interactive shell to practice those topics side-by-side.
- Kaggle [free]— a free and interactive guide to learning python. It is a short tutorial covering all the important topics for data science.
- Python Course by freecodecamp on YouTube[free] — This is a 5-hour course that you can follow to practice the basic concepts.
- Intermediate python [free]— Another free course by Patrick featured on freecodecamp.org.
- Coursera Python for Everybody Specialization[fee] — this is a specialization encompassing beginner-level concepts, python data structures, data collection from the web, and using databases with python.
힘내
- Guide for Git and GitHub[free]: complete these tutorials and labs to develop a firm grip over version control. It will help you further in contributing to open-source projects.
SQL
- Intro to SQL and Advanced SQL on Kaggle.
- Datacamp also offers many courses on SQL.
많은 문제를 해결하고 최소 2 개의 프로젝트를 구축하여 전문성을 측정하십시오.
- Solve a lot of problems here: HackerRank(beginner-friendly), LeetCode(solve easy or medium-level questions)
- Data Extraction from a website/API endpoints — try to write python scripts from extracting data from webpages that allow scraping like soundcloud.com. Store the extracted data into a CSV file or a SQL database.
- Games like rock-paper-scissor, spin a yarn, hangman, dice rolling simulator, tic-tac-toe, etc.
- Simple web apps like youtube video downloader, website blocker, music player, plagiarism checker, etc.
이러한 프로젝트를 GitHub 페이지에 배포하거나 Git 사용 방법을 배울 수 있도록 GitHub에서 코드를 호스팅하기 만하면됩니다.
2. 데이터 수집 및 랭 글링 (Cleaning)
(예상 시간 : 2 개월)
데이터 과학 작업의 중요한 부분은 문제 해결에 도움이되는 적절한 데이터를 찾는 데 집중되어 있습니다.스크래핑 (웹 사이트에서 허용하는 경우), API, 데이터베이스, 공개적으로 사용 가능한 저장소와 같은 여러 합법적 인 소스에서 데이터를 수집 할 수 있습니다.
데이터가 준비되면 분석가는 종종 데이터 프레임을 정리하고, 다차원 배열로 작업하고, 설명 / 과학적 계산을 사용하고, 데이터 프레임을 조작하여 데이터를 집계합니다.
데이터는 “실제”환경에서 사용할 수 있도록 정리되지 않고 형식이 지정되지 않습니다.Pandas와 NumPy는 더티 데이터에서 즉시 분석 가능한 데이터로 이동할 수있는 두 개의 라이브러리입니다.
파이썬 프로그램 작성에 익숙해지면 다음과 같은 라이브러리 사용에 대한 강의를 시작하십시오.판다과numpy.
자원:
- Data Manipulation using pandas[fee] —an interactive course from datacamp that can quickly get you started with manipulating data using pandas. Learn to add transformations, aggregations, subsetting, and indexing dataframes.
- Kaggle pandas tutorial[free] — A short and concise hands-on tutorial that will walk you through commonly used data manipulation skills.
- Data Cleaning course by Kaggle.
- freecodecamp course on learning Numpy, pandas, matplotlib, and seaborn[free].
- Coursera course on Introduction to Data Science in Python[fee] — This is the first course in the Applied Data Science with Python Specialization.
프로젝트 아이디어 :
- Collect data from a website/API(open for public consumption) of your choice, collect the data, and transform the data to store data from different sources into an aggregated file or table(DB). Example APIs include TMDB, quandl, Twitter API, etc.
- Pick any publicly available dataset; define a few set of questions that you’d want to pursue after looking at the dataset and the domain. Wrangle the data to find out answers to those questions using pandas and NumPy.
3. EDA, Business acumen and Storytelling
(예상 시간 : 2 ~ 3 개월)
마스터해야 할 다음 계층은 데이터 분석과 스토리 텔링입니다.데이터에서 인사이트를 도출 한 다음이를 간단한 용어와 시각화로 경영진에게 전달하는 것은 데이터 분석가의 핵심 책임입니다.
스토리 텔링 부분에서는 뛰어난 의사 소통 기술과 함께 데이터 시각화에 능숙해야합니다.
특정 주제 :
- Exploratory data analysis — defining questions, handling missing values, outliers, formatting, filtering, univariate and multivariate analysis.
- Data visualization — plotting data using libraries like matplotlib, seaborn, and plotly. Knowledge to choose the right chart to communicate the findings from the data.
- Developing dashboards — a good percent of analysts only use Excel or a specialized tool like Power BI and Tableau to build dashboards that summarise/aggregate data to help the management in making decisions.
- Business acumen: Work on asking the right questions to answer, ones that actually target the business metrics. Practice writing clear and concise reports, blogs, and presentations.
자원:
- Career track on Data Analysis — by datacamp. A good list of interactive courses that you can refer to along with real-world case studies that they use while teaching. But do work on your own projects after going through the specialization.
- Data Analysis with Python — by IBM on Coursera. The course covers wrangling, exploratory analysis, and simple model development using python.
- Data Visualization — by Kaggle. Another interactive course that lets you practice all the commonly used plots.
- Data Visualization in Spreadsheets, Excel, Tableau, Power BI — pick anyone.
- Build product sense and business acumen with these books: Measure what matters, Decode and conquer, Cracking the PM interview.
프로젝트 아이디어
- Exploratory analysis on movies dataset to find the formula to create profitable movies(use it as inspiration), use datasets from healthcare, finance, WHO, past census, Ecommerce, etc.
- Build dashboards(jupyter notebooks, excel, tableau) using the resources provided above.
4. Data Engineering
(예상 시간 : 4 ~ 5 개월)
데이터 엔지니어링은 빅 데이터 기반 회사의 연구 엔지니어와 과학자가 깨끗한 데이터에 액세스 할 수 있도록함으로써 R & amp; D 팀을 뒷받침합니다.그것은 그 자체로 필드이며 문제의 통계적 알고리즘 측면에만 집중하고 싶다면이 부분을 건너 뛸 수 있습니다.
데이터 엔지니어의 책임에는 효율적인 데이터 아키텍처 구축, 데이터 처리 간소화 및 대규모 데이터 시스템 유지가 포함됩니다.
엔지니어는 Shell (CLI), SQL 및 python / Scala를 사용하여 ETL 파이프 라인을 생성하고 파일 시스템 작업을 자동화하며 데이터베이스 작업을 최적화하여 고성능으로 만듭니다.또 다른 중요한 기술은 AWS, Google Cloud Platform, Microsoft Azure 등과 같은 클라우드 서비스 제공 업체의 숙련도가 필요한 이러한 데이터 아키텍처를 구현하는 것입니다.
자원:
- [Book]Machine Learning Engineering by Andriy Burkov — this is a book that captures the real scenario of deploying/monitoring a model in a production environment.
- Data Engineering Nanodegree by Udacity — as far as a compiled list of resources is concerned, I have not come across a better-structured course on data engineering that would cover all the major concepts from scratch.
- Introduction to Data Engineering — By datacamp. A good resource to get started with building ETL pipelines with a host of tools.
- Data Engineering, Big Data, and Machine Learning on GCP Specialization — You can complete this specialization offered by Google on Coursera that walks you through all the major APIs and services offered by GCP to build a complete data solution.
준비 할 프로젝트 아이디어 / 인증 :
- AWS Certified Machine Learning(300 USD) — A proctored exam offered by AWS, adds some weight to your profile(doesn’t guarantee anything though), requires a decent understanding of AWS services and ML.
- Professional Data Engineer — Certification offered by GCP. This is also a proctored exam and assesses your abilities to design data processing systems, deploying machine learning models in a production environment, ensure solutions quality and automation.
5. Applied statistics and mathematics
(예상 시간 : 4 ~ 5 개월)
통계적 방법은 데이터 과학의 핵심 부분입니다.거의 모든 데이터 과학 인터뷰는 주로 기술 및 추론 통계에 중점을 둡니다.
사람들은 이러한 알고리즘의 작동을 설명하는 기본 통계 및 수학적 방법에 대한 명확한 이해없이 기계 학습 알고리즘 코딩을 시작합니다.
집중해야 할 주제 :
- Descriptive Statistics — to be able to summarise the data is powerful but not always. Learn about estimates of location(mean, median, mode, weighted statistics, trimmed statistics), and variability to describe the data.
- Inferential statistics — designing hypothesis tests, A/B tests, defining business metrics, analyzing the collected data and experiment results using confidence interval, p-value, and alpha values.
- Linear Algebra, Single and multi-variate calculus to understand loss functions, gradient, and optimizers in machine learning.
자원:
- [Book]Practical statistics for data science(highly recommend) — A thorough guide on all the important statistical methods along with clean and concise applications/examples.
- [Book]Naked Statistics — a non-technical but detailed guide to understanding the impact of statistics on our routine events, sports, recommendation systems, and many more instances.
- Statistical thinking in Python — a foundation course to help you start thinking statistically. There is a second part to this course as well.
- Intro to Descriptive Statistics— offered by Udacity. Consists of video lectures explaining widely used measures of location and variability(standard deviation, variance, median absolute deviation).
- Inferential Statistics, Udacity — the course consists of video lectures that educate you on drawing conclusions from data that might not be immediately obvious. It focuses on developing hypotheses and use common tests such as t-tests, ANOVA, and regression.
프로젝트 아이디어 :
- Solve the exercises provided in the courses above and then try to go through a number of public datasets where you can apply these statistical concepts. Ask questions like “Is there sufficient evidence to conclude the mean age of mothers giving birth in Boston is over 25 years of age at the 0.05 level of significance.”
- Try to design and run small experiments with your peers/groups/classes by asking them to interact with an app or answer a question. Run statistical methods on the collected data once you have a good amount of data after a period of time. This might be very hard to pull off but should be very interesting.
- Analyze stock prices, cryptocurrencies, and design hypothesis around the average return or any other metric. Determine if you can reject the null hypothesis or fail to do so using critical values.
6. Machine Learning / AI
(예상 시간 : 4 ~ 5 개월)
앞서 언급 한 모든 주요 개념을 숙지 한 후 이제 멋진 ML 알고리즘을 시작할 준비가되었습니다.
학습에는 세 가지 주요 유형이 있습니다.
- 지도 학습— 회귀 및 분류 문제를 포함합니다.단순 선형 회귀, 다중 회귀, 다항 회귀, 나이브 베이 즈, 로지스틱 회귀, KNN, 트리 모델, 앙상블 모델을 연구합니다.평가 지표에 대해 알아 봅니다.
- 비지도 학습— 클러스터링과 차원 감소는 비지도 학습의 널리 사용되는 두 가지 응용 프로그램입니다.PCA, K- 평균 클러스터링, 계층 적 클러스터링 및 가우스 혼합에 대해 자세히 알아 봅니다.
- 강화 학습(건너 뛸 수 있음 *) — 자기 보상 시스템을 구축하는 데 도움이됩니다.보상 최적화, TF-Agents 라이브러리 사용, Deep Q- 네트워크 생성 등을 배우십시오.
대부분의 ML 프로젝트에서는 내가 설명한 여러 작업을 마스터해야합니다.이 블로그.
자원:
- [book]Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow, 2nd Edition — one of my all-time favorite books on machine learning. Doesn’t only cover the theoretical mathematical derivations but also showcases the implementation of algorithms through examples. You should solve the exercises given at the end of each chapter.
- Machine Learning Course by Andrew Ng — the go-to course for anyone trying to learn machine learning. Hands down!
- Introduction to Machine Learning — Interactive course by Kaggle.
- Intro to Game AI and Reinforcement Learning — another interactive course on Kaggle on reinforcement learning.
- Supervised learning with Python — datacamp offers a multitude of courses on machine learning that one can follow. All of them are 4 hours long and can help you get a decent understanding of the application of ML.
심층 학습에 관심이있는 분들은 deeplearning.ai 및 Hands-ON 책에서 제공하는이 전문화를 완료하여 시작할 수 있습니다.이것은 컴퓨터 비전이나 NLP 문제를 해결할 계획이 아니라면 데이터 과학 관점에서 그렇게 중요하지 않습니다.
딥 러닝은 전용 로드맵이 필요합니다.모든 기본 개념과
학습 진행 상황 추적
data:image/s3,"s3://crabby-images/d7aac/d7aacc12ae4ffb5ef19212c815b04a9ae0fa3a4c" alt="Image for post"
또한 Notion에서 학습 추적기를 만들었습니다.필요에 맞게 사용자 정의하고이를 사용하여 진행 상황을 추적하고 모든 리소스와 프로젝트에 쉽게 액세스 할 수 있습니다.
아래에서이 블로그의 비디오 버전을 찾으십시오!
Harshit을 사용한 데이터 과학
이것은 광범위한 데이터 과학에 대한 높은 수준의 개요 일 뿐이며 이러한 각 주제에 대해 자세히 알아보고 각 범주에 대한 낮은 수준의 개념 기반 계획을 만들 수 있습니다.
새 주제를 추가하거나 이름을 변경하려면이 블로그에 응답하거나 동영상에 댓글을 남겨주세요.또한 어떤 카테고리에서 프로젝트 튜토리얼을 진행하고 싶은지 알려주세요.