생명 과학 및 생명 공학의 기계 학습 응용 분야의 흥미로운 사례 연구
기술 산업으로 스릴과 성공한 산업

Covid-19는 우리에게 우리에게 집중하고 생명 과학과 생명 공학 산업에 대한 포커스를 만들었습니다.
건강은 우리의 가장 소중한 자산이며 건강을 유지하는 데는 비용이 들지 않습니다.그래서 생명 과학과 생명 공학 산업은 거대하고 매우 다양합니다.많은 하위부터…에가장 알려진 분야는 약물 발견 및 제조, 치료학, 진단, 치료학, 유전체학 및 프로테오믹스, 수의학 과학뿐만 아니라 화장품, 의료 기술 및 유통도 있습니다.
엄청난 양의 데이터가 Inh.이자형이 산업에 임대하십시오.데이터는 임상 시험, 약물, 치료법, 진단, 유전체학, 건강 관리 제공자 및 모든 개인 운동 데이터의 증가와 함께 사용할 수 있습니다.
생명 과학과 생명 공학은 많은 분야에서 큰 데이터 산업에 있습니다.
반면에 새로운 치료법, 약물 또는 백신을 개발하는 데 드는 비용은 거의 10 억 달러의 달러와 희귀 한 질병을 위해 2 자리 10 억 달러를 시작합니다.비교, Biontech와 Moderna를 위해 각 회사는 백신 개발을 위해 거의 10 억 달러의 외부 자금을 받았습니다.총 개발 비용은 대중이 아니지만 그 중 배수를 가정합니다.
이것들은 엄청난 투자량이며, 업계는 비용과 비용을 줄이고 치료법과 치료법을 더 빠르게 만들기위한 모든 노력을 기울이고 있습니다.따라서 업계는 기술 산업으로 데이터 주도적입니다.
그래서 생명 과학과 생명 공학 산업은 데이터 과학자들을위한 낙원입니다.플레이어는 많은 양의 데이터가 있으며 데이터 과학자는 매일 큰 데이터 영역에서 작동합니다.
많은 데이터 과학자 들이이 업계에 익숙하지 않습니다.하나의 엔트리 장벽은 해당 분야에서 주제를 이해하고 작업하는 데 필요한 매우 전문화 된 지식입니다.
둘째, 인과 관계 및 정밀도는 중요성이 높고 깊은 수학 및 (바이오) 통계적 배경이 많이 필요합니다.알고리즘이 대규모 기술 회사 중 하나의 서비스 사용자에게 잘못된 광고로 이어지면 아무 일도 일어나지 않습니다.알고리즘이 마약 개발의 잘못된 결정으로 인도하면 투자 또는 죽은 사람에 대한 대규모 손실이 발생할 수 있습니다.
나는 수년 동안 생명 과학과 생명 공학 산업에서 데이터 과학 컨설턴트로 일했습니다.그리고 나는 항상 내가 항상 가장 복잡하고 흥미로운 문제를 해결하기 때문에 그것을 좋아했습니다.
이 흥미 진진한 산업에 대한 통찰력을 가져 오려면 8 개의 실제 데이터 과학 사용 사례를 제시합니다.이렇게하면 응용 프로그램의 인상을주고 해당 분야에 대한 필수 비즈니스 지식을 익히십시오.
제약, 생명 과학 및 생명 공학에 데이터 과학자가 부족합니다.결국, 나는 당신이 기술 산업만큼이나 급수적 인 흥미 진진한 산업으로 움직이는 동기를 부여 할 수 있습니다.
1. 미생물 치료제의 개발
우리는 박테리아, 곰팡이, 바이러스 및 기타 단일 세포 유기체와 같은 소위 미생물을 소위 미생물 소위 소위 미생물을 보유하고 있습니다.미생물의 모든 유전자는 미생물로 알려져 있습니다.이들 유전자의 수는 수조이고, 예를 들어, 인체의 박테리아는 인간보다 100 배 이상의 독특한 유전자를 갖는다.
미생물은 인간의 건강에 막대한 영향을 미치고, 불균형은 파킨슨 병이나 염증성 장 질환과 같은 많은 장애를 일으키고 있습니다.그러한 불균형이 여러 가지자가 면역 질환을 일으키는 것도 추정됩니다.그래서 미생물 연구는 매우 유행이 많은 연구 분야입니다.
미생물에 영향을 미치고 미생물 치료제를 역전시키기 위해 미생물 치료제를 개발하기 위해 미생물의 유전자와 우리의 몸에 영향을 미치는 것이 필요합니다.오늘날 모든 유전자 시퀀싱 가능성을 통해 데이터의 테라 바이트는 이용 가능하지만 아직 조사되지는 않습니다.
미생물 표적 처리를 개발하고 미생물 약물 상호 작용을 예측하기 위해서는 하나의 요구가 먼저 그러한 상호 의존성을 알아야합니다.그리고 이것은 기계 학습이 오는 곳입니다.
첫 번째 단계는 패턴을 찾는 것입니다.한 가지 예는 모터 뉴런 질병, 즉 골격근 활동을위한 세포를 파괴하는 장애, 즉 근육을 더 이상 통제 할 수없는 장애를 일으키는 장애의 불균형이다.일반적으로 1000 명 이상의 개인 매개 변수가 포함됩니다.Supervised ML 및 보강 학습은 해당 단계의 주 알고리즘입니다.
투약 형태, 약물 용해도, 약물 안정성 및 약물 관리와 치료법을 설계하기 위해 약물 투여 및 제조와 같은 수백 가지 요인을 고려해야합니다.예를 들어, 임의의 숲은 종종 마약 안정성을 중심으로 질문에 사용됩니다.
마지막 단계는 치료법의 개인화입니다.이를 위해서는 미생물 및 약물의 반응과 상호 작용을 예측해야합니다.원칙 구성 요소 분석 다음에 감독 된 학습 알고리즘이 뒤 따르는 것은 표준 기술입니다.이 단계에서 가장 큰 도전은 여전히 모델을 훈련시키는 큰 데이터베이스가 부족합니다.
2. 류마티스 관절염 블록버스터의 정밀 약
블록버스터는 10 억 달러 이상의 적어도 연간 매출을 창출하는 엄청난 인기있는 약물입니다.블록버스터는 당뇨병, 고혈압, 일반적인 암 유형 또는 천식과 같은 일반적인 질병을 다룹니다.일반적으로 시장에서 많은 경쟁 제품이 있습니다.
“정밀 의학”은 특정 치료법에 반응하는 특정 특성을 공유하는 개인 그룹에 대한 치료법입니다 (아래 그래픽을 참조하십시오짐마자
다른 약물과의 차별화를 위해, 제품의보다 구체적인 표적 및 마케팅을 위해, 질병 억제와 관련하여 우수한 환자 그룹이 결정된다.목표는 모든 마케팅 분석 프로젝트와 동일합니다.사용 된 데이터는 소위 실제 데이터 (RWD), 즉 치료 된 환자의 데이터가 아니라 임상 시험이 아니라.
주요 방법은 원하는 출력 값이 있기 때문에 학습 방법을 감독합니다.회귀 분구 / 물류 회귀, 지원 벡터 기계 및 랜덤 포리스트의 일반적인 방법 외에도 많은 양의 데이터를 통해 Convolutional 신경망 (CNN)과 같은 심층 학습 알고리즘이 적용됩니다.CNN은 종종 다른 방법을 능가합니다.

삼. 모바일 건강 상태에서 심부전을 예측합니다
심부전은 일반적으로 비상 사태 또는 병원 입학을 이끌고 있습니다.그리고 노화 된 인구로 인구의 심부전의 백분율이 증가 할 것으로 예상됩니다.
심부전을 겪는 사람들은 대개 기존의 질병을 가지고 있습니다.따라서 텔레나드 인 시스템이 환자를 모니터하고 상담하고 혈압, 체중 또는 심박수와 같은 모바일 건강 데이터가 수집되어 전송되는 것은 드문 일이 아닙니다.
대부분의 예측 및 예방 시스템은 고정 규칙을 기반으로합니다. 예를 들어 특정 측정치가 미리 정의 된 임계 값을 초과하면 환자가 경고합니다.그러한 예측 시스템은 높은 수의 거짓 경고, 즉 거짓 긍정을 갖는 자명하다.
경고가 대부분 병원 입원으로 이어지기 때문에 너무 많은 거짓 경고가 건강 비용을 증가시키고 환자의 예측에 대한 신뢰가 악화됩니다.결국, 그녀는 의료 도움을 권고 한 후에 멈출 것입니다.
따라서 나이, 성별, 흡연자 또는 균육, 균육 및 혈액의 나트륨, 칼륨 또는 헤모글로빈 농도와 같은 환자의 기준 데이터 및 심장 박동, 체중 (수축기 및 이완기)과 같은 모니터링 된 특성을 기반으로합니다.혈압, 또는 신체 활동에 대한 혈압, 또는 신체 활동에 대한 답변, 순진한 베이를 기반으로 한 분류자가 마침내 개발되었습니다.
거짓 경고는 73 % 감소했으며AUC (곡선 아래의 영역 “)약 70 %의
4. 정신병 예측, 진단 및 치료
그것은에서의 것으로 추정된다글로벌 인구의 최소 10 %정신 장애가 있습니다.정신 질환으로 인한 경제적 손실은 약 10 조까지 달약합니다.정신 장애는 다른 사람들, 불안, 우울증, 물질 사용 장애, 예를 들어 오피오이드, 양극성 장애, 정신 분열증 또는 식습 장애를 포함합니다.
따라서 정신 장애의 탐지와 가능한 한 일찍 탐지하는 것이 중요합니다.두 가지 주요 접근 방식이 있습니다 : 진단을 지원하기 위해 정신과 의사를위한 질병과 도구를 탐지하는 소비자를위한 앱이 있습니다.
소비자를위한 앱은 일반적으로 컴퓨터 학습 알고리즘으로 향상된 대화식 샤 봇입니다.앱은 소비자의 구어력을 분석하고 도움을 요청하는 권장 사항이 제공됩니다.권장 사항은 과학적 증거를 기반으로해야하므로 제안서와 개별 언어 패턴의 상호 작용 및 대응은 가능한 한 정확하게 예측해야합니다.
적용되는 방법은 다릅니다.첫 번째 단계는 거의 항상 감정 분석입니다.더 간단한 모델에서는 랜덤 숲과 순진한 베이가 사용됩니다.이 모델은 최대 3 개의 숨겨진 레이어가있는 신경 네트워크가 엄청나게 능숙합니다.

5. 뇌졸중의 바이오 마커를위한 연구 출판 및 데이터베이스 검색
뇌졸중은 장애와 사망의 주된 이유 중 하나입니다.성인 인물의 평생 위험은 한 번 뇌졸중의 약 25 %입니다.그러나 뇌졸중은 매우 이질적인 장애입니다.그래서, 개별화 된 사전 뇌졸중과 뇌졸중 관리가 치료법의 성공을 위해 중요합니다.
이 개별화 된 치료를 결정하기 위해 사람의 표현형, 즉, 관찰 가능한 특성을 선택해야합니다.그리고 이것은 보통 바이오 마커에 의해 달성됩니다.소위 바이오 마커는 환자가 층화 될 수 있도록 측정 가능한 데이터 포인트입니다.예는 질병의 심각도 점수, 라이프 스타일 특성 또는 게놈 특성입니다.
이미 알려진 바이오 마커가 이미 게시되거나 데이터베이스에 있습니다.또한 모든 다른 질병에 대한 바이오 마커의 탐지에 대해 매일 수백 명의 과학 간행물이 있습니다.
연구는 엄청나게 비싸고 장애를 예방하기 위해 중요합니다.그래서, 생명 공학 회사는 특정 질병에 가장 효과적이고 효율적인 해당 바이오 마커를 이해해야합니다.정보의 양은 매우 거대합니다. 이는 수동으로 수행 할 수 없습니다.
데이터 과학은 데이터베이스 및 출판물에서 관련 바이오 마커를 찾기 위해 정교한 NLP 알고리즘을 개발하는 데 도움이됩니다.그러한 바이오 마커가 특정 유형의 뇌졸중과 관련이있는 경우 콘텐츠를 이해하는 것 외에도, 출판 된 결과의 품질에 대한 판단이 달성되어야합니다.이것은 전반적으로 매우 복잡한 작업입니다.
6. 3D Bioprinting.
Bioprinting은 생명 공학 분야의 또 다른 뜨거운 주제입니다.디지털 청사진을 기반으로 프린터는 피부, 장기, 혈관 또는 뼈와 같은 층별 생활 조직을 인쇄하기 위해 바이오 링크라고도하는 셀 및 자연적 또는 합성 생체 재료를 사용합니다.
기관 기부에 따라 프린터에서보다 윤리적으로 비용 효율적으로 생산 될 수 있습니다.또한 약물 검사는 동물 또는 인간 테스트보다 합성 구조 조직에서 수행됩니다.전체 기술은 높은 복잡성으로 인해 초기 성숙도에 있습니다.이 인쇄의 복잡성에 대처하기 위해 가장 필수적인 부분 중 하나는 데이터 과학입니다.
인쇄 프로세스 및 품질은 고유 한 변형 또는 다양한 인쇄 매개 변수가있는 바이오 링크의 속성과 같은 수많은 요소에 의존합니다.예를 들어 사용 가능한 출력을 얻는 성공을 높이기 위해 인쇄 프로세스를 최적화하는 것,베이지안 최적화은 적용되다.
인쇄 속도는 프로세스의 핵심 구성 요소입니다.샴 네트워크 모델최적화 된 속도를 결정하기 위해 배포됩니다.재료를 검출하기 위해, 즉, 조직 결함, 컨볼 루넥 신경망은 층별 조직의 이미지에 적용된다.
사전 생산, 생산 및 후 생산 공정 중에 더 많은 응용 프로그램이 있지만이 세 가지 예는 이미 복잡성과 고급 모델이 필요합니다.제 의견 으로이 분야는 데이터 과학자들에게 생명 공학에서 가장 흥미로운 것들 중 하나입니다.
7. 난소 암 치료의 맞춤 치료
“개인화 된”은 한 개인의 요구와 일치하는 치료가 적용된다는 것을 의미합니다 (위의 그래픽을 참조하십시오짐마자의료 치료는 환자의 개별화 된 특성을 기반으로 점점 더 많습니다.
이러한 특성은 질병 아형, 개인 환자의 위험, 건강 예후 및 분자 및 행동 바이오 마커입니다.우리는 환자가 층화 될 수 있도록 환자들이 측정 가능한 데이터 포인트임을 측정 할 수있는 데이터 포인트임을 나타 냈습니다.그 데이터를 기반으로 한 환자에게 가장 좋은 개별 처리가 결정됩니다.
난소 암으로 한 환자의 경우 일반적인 화학 요법은 효과적이지 않았습니다.그래서, 하나는 게놈 시퀀싱을 수행하기로 결정 하여이 암을 유발하는 잘못된 뉴클레오타이드 염기를 찾기로 결정했습니다.Big Data Analytics를 사용하면 해리 포터의 “철학자의 돌”의 7798 권의 단어의 숫자에 해당하는 인간의 3 억 개의베이스 쌍 사이의 수정을 발견했습니다.
적용되는 방법은 일반적으로 소위 공분산 모델이며 종종 임의의 숲과 같은 분류 자와 결합됩니다.흥미롭게도,이 변형은 약물이 존재하지만 난소 암이 아닌 폐암으로부터 알려져있다.따라서 폐암 치료가 적용되었고 환자가 회복되었습니다.

8. 공급망 최적화
마약의 생산은 시간, 특히 특정 물질 및 생산 방법을 기반으로하는 오늘날의 하이테크 치료법을 필요로합니다.또한 전체 프로세스가 여러 단계로 분해되며, 그 중 몇 가지는 전문가 제공자에게 아웃소싱됩니다.
우리는 현재 COVID-19 백신 생산을 보장합니다.백신 발명가는 청사진을 제공하며 생산은 멸균 생산 전문 기업의 식물에 있습니다.백신은 임상 조건 하에서 작은 복용량을 채우는 회사에 탱크로 전달되며 마지막으로 다른 회사가 공급을합니다.
또한, 약물은 제한된 시간 동안 만 저장 될 수 있으며, 예를 들어 냉장실에서 특별한 저장 조건 하에서 종종 저장 될 수 있습니다.
적절한 생산 능력을 갖는 적절한 시간에 적절한 생산 능력을 갖는 올바른 입력 물질을 갖는 올바른 입력 물질을 갖는 전체 계획은 매우 복잡한 시스템입니다.그리고 이것은 각각 특정 조건을 가진 수백 가지와 수천 개의 치료법을 위해 관리되어야합니다.
계산 방법은 이러한 복잡성을 관리하는 데 필수적입니다.예를 들어, 최적의 파트너 회사의 생산 공정에서 선택하는 것은 지원 벡터 기계와 같은 감독 학습에 의해 수행됩니다.
동적 수요 예측은 종종 소위 소위에 의존합니다벡터 회귀를 지원합니다생산 최적화 자체가 신경망을 배치합니다.
결론
현대 기술과 과학이 오늘날을 달성 할 수있는 것은 매우 매력적입니다.그것은 데이터 과학과 함께 가장 상당한 가치를 펼칩니다.
방법으로, 우리는 랜덤 포리스트, 순진한 베이 및 지원 벡터 기계가 자주 사용되는 감독 학습 방법이 종종 사용되며, 보강 학습, NLP 및 심층 학습이 지배적입니다.
또한, 높은 차원 데이터에 대처하고 주성분 분석 및 공분산 모델과 같은 검색을위한 계산 방법이 필요합니다.
혁신의 국경에서 일하는 것은 베이지안 최적화, 컨볼 루션 신경망 또는 샴 네트워크와 같은 특정 주제에 대한 지식이 필요합니다.
이 필드에 대한 가장 중요한 항목 장벽은 주제별 지식이므로 (원시) 데이터를 이해합니다.가장 빠른 경로가 익숙해지는 것은 과학적 간행물과 알려지지 않은 각 표현식을 읽고 부지런히 조회합니다.그 필드에서 일할 때 전문가의 말로 말해야합니다.
그런 다음 오직 데이터 과학자만큼 엄청난 영향을 미칠 수 있습니다.그러나 이것은 또한 가장 보람있는 측면이기도합니다.
나는 생명 과학과 생명 공학 산업보다 직장에 더 많은 영향을 미칠 수 없었습니다.
내 이야기를 좋아하니?여기에서 더 많은 것을 찾을 수 있습니다.