Analyzing Erasmus Study Exchanges with Pandas -번역

판다와 에라스무스 연구 교환 분석

Erasmus 프로그램 2011–12에서 발생한 20 만 개의 연구 교환으로 데이터 세트를 분석 한 결과

Photo by Windows on Unsplash

1987 년 이래, Erasmus 프로그램은 매년 수십만 명의 유럽 학생들에게 한 학기 또는 1 년을 다른 유럽 국가에서 해외로 보낼 수있는 기회를 제공하여 학생들에게 쉬운 교환 과정과 경제적 지원을 제공합니다.유럽의 다양한 사람, 언어 및 문화에 대한 마음과 마음을 열어주는 정말 귀중한 경험입니다.

Aust 비엔나에서 에라스무스 교환을 했어요아르 자형ia, 그리고 그것은 또한 잊을 수없는 경험이었습니다.데이터 분석에 대한 프로젝트를 수행해야하는 과정이있었습니다.힐케 반 뮈 르스그리고 나는 분석을하기로 결정했다2011-12 학년도 에라스무스 교환 데이터, 사용 가능유럽 연합 개방형 데이터 포털.1 년 후 오늘 저는이 프로젝트를 여러분과 공유하고 있습니다.

설정

이 과제에서 우리가 가진 주요 요구 사항은JupyterLab작업 환경으로파이썬프로그래밍 언어로판다데이터 처리 라이브러리로.또한 우리는Matplotlib일부 그래프를 그릴뿐만 아니라ScipyNumpy일부 작업을 수행합니다.

데이터 이해

그만큼데이터 세트,에서 다운로드유럽 연합 개방형 데이터 포털, CSV 파일로, 각 행은 한 학생을 나타내고 열은 그녀가오고가는 국가 및 대학, 학업 분야, 교환 기간 등 교환에 대한 정보를 제공합니다.

Erasmus 데이터 세트 미리보기

칼럼이 많고이 프로젝트에 쓸모없는 칼럼이 많으므로 지금 각각을 설명하는 대신 필요할 때마다 그 의미를 설명하겠습니다.또 다른 중요한 사실은이 데이터 세트가 연구 교환뿐만 아니라 인턴십과 같은 다른 유형의 에라스무스 배치에 대한 정보를 제공한다는 것입니다.이 프로젝트는 연구 교류에만 집중할 것이기 때문에, 곧 보게 될 다른 프로젝트는 삭제 될 것입니다.

데이터 다운로드 및 정리

그러니 일하러 가자!먼저 JupyterLab에서 새 노트북을 만들고 필요한 기본 라이브러리를 가져오고 플로팅 스타일을 설정하는 것으로 시작하겠습니다.

그런 다음 유럽 연합 데이터 포털 서버에서 데이터 세트를 다운로드하고이를 Pandas DataFrame으로 변환해야합니다.

마지막으로,이 데이터 세트는 학습 및 인턴십 교환을 모두 다루며 학습 교환에만 집중하기를 원하므로 게재 위치에 해당하는 행과 열을 제거합니다.

단일 변수 분석

연령,받은 보조금 및 크레딧 수

이제 데이터를 분석 할 준비가되었으므로 학생의 나이, 학생이받는 보조금 또는 ECTS (크레딧) 수와 같은 일부 단일 변수에 대한 최소, 최대, 평균 및 표준 편차를 계산하여 시작하겠습니다.연구.데이터를 더 잘 이해하기 위해 히스토그램으로 표시합니다.

예를 들어 학생의 연령에 대한 통계 지표를 얻는 방법을 살펴 보겠습니다 (열나이) :

2011-12 세의 막내 에라스무스 학생은 겨우 17 세였습니다. 놀랍습니다!하지만 가장 놀라운 것은 가장 나이가 83 세라는 것이 믿기지 않습니다.우리는 너무 충격을 받아이 사람에 대한 더 많은 정보를 위해 데이터 셋을 검색했고, 갑자기이 교환 프로그램에 참여하기로 결정한 것은 한 명뿐 아니라 두 명의 영국 신사였습니다.그럼에도 불구하고 평균 연령은 22 세입니다.

총계 (연구자) 및 월간 (STUDYGRANT / LENGTHSTUDYPERIOD)받은 보조금 및 크레딧 수 (TOTALECTSCREDITS) – 전체 노트북에서 코드를 찾을 수 있습니다 –.

성별 비율

남녀 비율을 결정하는 것도 매우 흥미로울 수 있습니다.이것은 얻을 수 있습니다성별DataFrame의 열과‘에프’(여성) 및‘미디엄’(남성) :

쉽죠?남성의 39.41 %에 비해 학생의 60.59 %가 여성 인 것 같습니다.그러나이 비율은 나중에 살펴 보 겠지만 대상 대학마다 크게 다릅니다.

학생의 60.59 %가 여성이고 39.41 %가 남성입니다.

대학 보내기 및 받기

더 많은 학생들을 해외로 보내는 유럽 대학이 무엇인지 궁금하십니까?그런 다음‘홈 인스 티 튜션’데이터 프레임에서 고유 한 값과 빈도를value_counts ()메서드를 사용하고 막대 그래프로 플로팅합니다.

보내는 기관의 상위 10 개

받는 기관의 상위 10 개를 얻으려면‘홈 인스 티 튜션’와‘HOSTINSTITUTION’및 voilà!10 대 발송 기관 중 8 개 기관이 수신 기관 상위 10 개 기관에 속한다는 것은 말할 필요도 없습니다.

언어

영어는 보편적 언어로 간주되지만 유럽 학생들이 교환을 위해 해외에 갈 때 셰익스피어 언어로 과정을 수강한다는 의미는 아닙니다.데이터 세트의 각 학생에 대해LANGUAGETAUGHT열은 코스를받은 언어를 제공하므로 코스에서 가장 많이 사용되는 10 가지 언어를 플로팅 해 보겠습니다.

예상대로 영어가 10 만 3 천명으로 가장 인기가 많았고, 스페인어가 2 만 7 천명으로 거의 4 배나 낮았습니다.

영어는 지금까지 가장 많이 가르치는 언어입니다.

그렇다면 이것은 영국과 아일랜드에서 에라스무스 학생들이 영어 코스를 수강하는 비율이 스페인에서 스페인어, 프랑스에서 프랑스어로 수강하는 것보다 훨씬 높다는 것을 의미합니까?찾아 보자!

에라스무스 학생들이 현지 언어로 공부하는 상위 10 개국

전혀!영국의 에라스무스 학생의 91.9 %가 영어로 배우고 있습니다 (영국에서도 영어의 전능함에도 불구하고 외국어 코스가 있음), 아일랜드의 86.8 %가 그 뒤를이었습니다.3 위는 스페인 에라스무스 학생의 84.5 %가 스페인어로 수강했으며 4 위는 프랑스 학생의 81.1 %가 프랑스어로 이수했습니다.1 위와 5 위 (영국과 이탈리아)의 차이는 14 %에 불과합니다.

주제 영역

또 다른 필수 질문은 에라스무스 학생들이 가장 인기있는 과목과 덜 인기있는 과목입니다.에 따르면유네스코의 ISCED 분류, 9 개의 연구 영역이 있습니다.교육, 인문학 & amp;예술, 사회 과학 & amp;비즈니스 & amp;법률, 과학, 공학 및제조 & amp;건설, 농업, 건강 및복지 및 서비스.데이터 세트의 각 행에 대해 학생의 주제 영역을 나타내는 숫자가 열에 있습니다.대상 지역.그러나 해당 필드에서는 첫 번째 숫자 만 필요하므로 코드에주의하십시오.람다함수:

8 만 명 이상의 학생들이있는 가장 인기있는 학습 영역은사회 과학, 비즈니스 및 법률.은메달과 동메달은인문학 & amp;기예엔지니어링, 제조 및구성, 각각 44.7k 및 30.8k 학생.

여러 변수 분석

대학 수혜에 따른 성별 비율

유럽에“여대”나“남학생”이 있는지 생각해 본 적이 있습니까?글쎄, 우리는 남학생이나 여학생 만받는 기관이 많다는 사실을 알고 깜짝 놀랐습니다.우리는 신입 여학생의 비율로 상위 30 대 대학을 쉽게 순위를 매길 수 있으며, 다른 학생은 신입생을위한 상위 30 대 대학으로 쉽게 순위를 매길 수 있습니다.

놀랍게도 두 순위 모두에서 남성 또는 여성의 비율은 100 %입니다.처음 123 개 대학을 인쇄하지 않는 한 남성의 100 %보다 낮은 비율이 표시되지 않으며 처음 256 개 기관을 나열하지 않는 한 여성도 마찬가지입니다.

대학 수강 기준 평균 연령

가장 나이가 많은 대학과 가장 어린 대학이 어디인지 궁금하십니까?

최연소 순위에서는 18 (IES Poblenou, Barcelona – 사실 대학이 아니라 기술 대학 센터 –)에서 상위 10 위의 19.5 년까지 차이가 거의 없지만 가장 오래된 순위에서는 차이가 다음과 같습니다.더 높은 : 45 년Hochschule 21독일에서 10 위는Lyceé Albert Camus, 프랑스에서 입학하는 학생들의 평균 연령은 32 세입니다.

국가 별 신입생 비율

제가 태어난 나라 인 스페인은 유학을가는 유럽 학생들이 가장 원하는 곳 중 하나입니다.그럼에도 불구하고 많은 스페인 학생들도 저처럼 에라스무스를 다니기 때문에 비율이 상당히 균형을 이룹니다.그러나 해외로 많은 학생을 파견하지만 거의받지 못하는 국가가 있으며 그 반대의 경우도 마찬가지입니다.막대 그래프를 통해 각 국가의 송수신 비율을 쉽게 확인할 수 있습니다.

변수 간의 상관 관계 분석

본국 및 호스트 국가

본국 및 목적지 국가는 숫자가 아닌 범주 형 변수이므로 상관 지수를 계산하는 것은 간단하지 않습니다.이러한 이유로 우리는 히트 맵과 같이 더 시각적 인 것을 선택했습니다.

위의 히트 맵에서 각 행은 모국을 나타내고 각 열은 목적지를 나타냅니다.결과는 각 국가에 대해 정규화됩니다. 즉, 색상은 각 목적지 (열)를 선택한 각 국가 (행)의 학생 비율을 나타냅니다.이 차트에서 보면이 변수 쌍의 엔트로피가 매우 낮은 것 같습니다. 즉, 특정 국가의 경우 선호하는 목적지가 어디인지 예측할 수 있음을 의미합니다.한 국가에 대해 확인해 보겠습니다.

본국과 목적지 국가간에 상관 관계가없는 경우, 각 본국에 대해 각 목적지 국가는 2.86 %의 학생을 받게됩니다.그러나 위의 히트 맵과 원형 차트에서 모두 그렇게 보이지 않습니다.예를 들어, 원형 차트에서 스페인 학생들이 이탈리아 (21.3 %), 프랑스 (12.4 %), 독일 (11.1 %), 영국 (9.4 %), 포르투갈 (6.8 %) 및 폴란드 (6.6 %).

목적지 및 주제 영역

유럽에는 매우 명망있는 대학이 있지만 모든 지식 영역에서 탁월한 대학을 찾기는 매우 어렵습니다.그렇기 때문에 각 과목에 대해 다른 기관보다 일부 기관에 대한 선호도가 있는지 확인하는 것이 흥미로울 것입니다.다시 범주 형 변수를 다루고 있으므로 이전과 동일한 기법을 적용 해 보겠습니다.

학과목과 목표 대학의 상관 관계가 0이면 각 학과목에 대해 각 목표 대학은 학생의 0.04 %를 받게된다.그러나 대부분의 교과 영역에서 더 많은 학생을받는 기관은 1 %에서 3.7 % 사이로 두 변수 간의 엔트로피가 높지 않음을 보여줍니다.그러나 이런 의미에서 우리는 나머지를 강조하는 대학을 찾을 수 없었습니다.“일반”범주에 대한 비율은 놀랍고 3 개 기관 만이 학생의 거의 50 %를받습니다.

가정 및 호스트 국가 및 월별 보조금

2019 년에 에라스무스 교환을 위해 서류 작업을 할 때 스페인 정부가 생활비에 따라 세 그룹의 목적지 국가를 설정하여 각기 다른 월별 보조금을 제공 한 것을 기억합니다.제가 그곳에 갔을 때 다른 유럽 국가에서 온 친구들이 저보다 더 많거나 적은 돈을받는 것을보고 놀랐습니다.그렇다면 월별 보조금은 무엇에 의존합니까? 당신이 가고자하는 국가 또는 당신이 오는 국가?찾아 보자!

각 목적지 국가의 월별 보조금 상자 그림
각 발송 국가의 월별 보조금 상자 그림

두 플롯을 비교하고 엄청난 양의 이상 값을 제거하면 학생들이받는 금액에서 본국이 목적지 국가보다 더 결정적인 요소임을 알 수 있습니다.첫 번째 그림에서 각 목적지 국가의 월별 보조금 평균은 매우 동질적인 것으로 보이며 대부분의 경우 평균값의 50 %에서 150 %까지 분산이 매우 높습니다.두 번째 플롯은 분산이 매우 낮고 평균 보조금은 매우 이질적입니다.따라서이 분석을하기 전에 예상했듯이 월별 보조금은 주로 귀하가 출신 국가에 달려 있습니다.

글이 너무 길지 않았 으면 좋겠습니다.사실,이 글에서는 너무 길지 않기 위해 우리가 만든 몇 가지 통찰력을 건너 뛰었습니다. 관심이 있다면 여기에완전한 노트북.나는 또한 다시 한 번 외침을하고 싶다힐케 반 뮈 르스이 프로젝트에 투입된 작업을 위해.물론 질문이나 제안이 있으시면 댓글로 알려주세요.

참고

Leave a Comment