Automatic Open Source-based Data Pipelines? Openshift To the Rescue! -번역

2021년 2월 23일 by hyungseok

자동 오픈 소스 기반 데이터 파이프 라인?구조로 openshift!

Shon Paz.

2 일 전·11 분 읽기

Image for post — Photo by Stephen Dawson on Unsplash

Kubernetes는 새로운 운영 체제이며 아무도 더 이상 그것을 의심 할 수 없습니다.마이크로 서비스 접근 방식을 개발하고 쿠베르 네스쪽으로 작업 부하를 마이그레이션하기 위해서는 조직이 데이터 서비스를 남겨 두었습니다.

우리 모두는 Covid-19, 중요한 데이터가 얼마나 중요한지, 적절한 아키텍처 및 데이터 원단을 갖는 것이 얼마나 중요한지.데이터가 성장하지 못하지 않을 것입니다!더보기 다른 일 이후에는 소비 기록을 계속해서 해결할 것입니다.

이 챌린지의 힘에스우리는 모든 마법이 일어나는 쿠베르넷으로 데이터 서비스를 옮겨서 우리의 데이터 서비스를 이동시켜 조직에보다 자동 및 확장 가능한 해결책을 제공합니다.Kubernetes는 건강 검진, 주 보존, 자동 조종사 등을 사용하여 Day-1 및 Day-2 작업을 모두 관리하는 데 도움이되는 운영자를 제공합니다.

이 데모에서는 모든 openshift 설치에서 제공되는 운영자를 사용하여 자동 데이터 파이프 라인을 실행하는 방법을 보여주고 싶습니다.운영자 허브…에나는 취하기로했다실시간 BI.사용 사례 로서이 데모를 구축하십시오.이 데모는 확장 가능한 kubernetes 기반 데이터 파이프 라인을 만들고 이러한 요구 사항을 충족시키기 위해 모든 분류 표준 제품을 사용하기 위해 openshift의 메커니즘을 활용합니다.모든 운영자는 OpenShift 컨테이너 저장소가 오브젝트 및 블록 스토리지 프로토콜 모두에 대해 기본 스토리지 솔루션을 제공하는 동안 모든 연산자가 배포됩니다.

이 데모는 사용자의 동작을 기반으로 이벤트를 생성하는 음악 스트리밍 응용 프로그램을 배포합니다 (추가 추가).

생성되는 데이터를 사용하여 대시 보드 및 시각화를 만들려면 오픈 소스 도구를 사용하고 이해 관계자에게 데이터 과학자가 중요한 데이터를 시각화하는보다 신뢰할 수있는 방법으로 제공됩니다.

이것은 비즈니스 논리에 직접 영향을줍니다!

이제 메시지가 분명 해지려고 해보자!

전제 조건

실행중인 Ceph 클러스터 (& gt; rrcs4)
실행중인 OpenShift 4 클러스터 (& gt; 4.6.8)
외부 모드에서 OCS 클러스터, 오브젝트 및 블록 저장소 모두 제공

설치

모든 리소스를 배포 해야하는 OpenShift 클러스터에서 새 프로젝트를 만듭니다.

$ OC NEW-PROJECT 데이터 - 엔지니어 데모

둘 다 설치하십시오amq 스트림과프레스토 악장운영자는 관련 자원을 만드는 것이 필요합니다.그를 가라운영자 허브설치할 왼쪽 패널 섹션 섹션 :

필요한 Git 저장소를 복제하므로 데모를 배포 할 수 있습니다.

$ git clone.https://github.com/shonpaz123/cephdemos.git

디렉토리를 모든 매니페스트가있는 데모 디렉토리로 변경하십시오.

$ CD Cephdemos / 데이터 - 엔지니어링 파이프 라인 - 데모 - OCP

Data Services Preparation

Preparing our S3 environment

이제 모든 전제 조건이 준비되어 있으므로 필요한 S3 리소스를 만들어 시작하겠습니다.우리가 외부 Ceph 클러스터를 사용하는 것처럼 클러스터와 상호 작용하기 위해 필요한 S3 사용자를 만들어야합니다.또한 KAFKA가 이벤트를 데이터 호수로 내보낼 수 있도록 S3 버킷을 만들어야합니다.이러한 리소스를 작성해 봅시다.

$ CD 01-OCS - 외부 -PEPH & AMP; & amp;./run.sh & amp; & amp;CD ..

예상 출력 :

{
"user_id": "데이터 - 엔지니어링 데모",
"display_name": "데이터 - 엔지니어링 - 데모",
"이메일": "",
"일시 중단 된": 0,
"max_buckets": 1000,
"하위저": [],
"키": [
{
"user": "데이터 - 엔지니어링 데모",
"access_key": "hc8v2pt7hx8zfs8nq37r",
"secret_key": "y6cenkxozddikjhqgkblfm38mukbnmwbsa1dxyu"
}
...에
...에
...에
}
make_bucket : 음악 차트 - 노래 - 상점 - 변경

스크립트는 사용합니다Awscli.자격 증명을 환경 변수로 내보내려면 버킷을 올바르게 만들 수 있습니다.이 스크립트가 제대로 작동하도록 모든 열린 포트가있는 엔드 포인트 URL에 액세스 할 수 있는지 확인하십시오.

Kafka New-ETL을 배포합니다

이제 S3 준비가되어 있으므로 필요한 모든 KAFKA 리소스를 배포해야합니다.이 섹션에서는 KAFKA 클러스터를 배포하여amq 스트림조작자, 그 사람을 통해 제공됩니다OpenShift 연산자 허브…에또한 기존 주제 이벤트를 S3 버킷으로 내보내려면 KAFKA 주제와 KAFKA 연결을 배포합니다.중대한!Endpoint URL을 변경해야합니다. 그렇지 않으면 Kafka Connect가 성공없이 이벤트를 노출하려고합니다.

이러한 자원을 만들려면 스크립트를 실행하십시오.

$ CD 02-KAFKA & amp; & amp;./run.sh & amp; & amp;CD ..

이제 모든 포드가 성공적으로 생성되었는지 확인하겠습니다.

$ oc 포드 가져 오기
이름 준비 상태가 나이를 다시 시작합니다
amq-streams-cluster-operator-v1.6.2-5B688F757-VHQCQ 1/1 러닝 0 7H35M
My-Cluster-Entity-operator-5dfbdc56bd-75bxj 3/3 러닝 0 92S
my-cluster-kafka-0 1/1 러닝 0 2m10s
my-cluster-kafka-1 1/1 러닝 0 2m10s
my-cluster-kafka-2 1/1 러닝 0 2m9s
my-cluster-zookeeper-0 1/1 러닝 0 2M42S
my-connect-cluster-connect-7BDC77F479-VWDBS 1/1 실행 0 71S
PRESTO-OPERATOR-DBBC6BC6BC6B78F-M6P6L 1/1 러닝 0 7H30M

우리는 모든 포드가 실행중인 상태에 있고 프로브를 통과 했으므로 필요한 주제를 확인하겠습니다.

$ oc kt를 얻으십시오
이름 클러스터 파티션 복제 계수
Connect-Cluster-Configs My-Cluster 1 3
연결 클러스터 - 오프셋 My-Cluster 25 3
연결 클러스터 - 상태 My-Cluster 5 3
소비자 - 오프셋 --- 84E7A678D08F4BD226872E5CDD2EB527FADC1C6A My-Cluster 50 3
음악 차트 - 노래 - 상점 - 변경 로그 내 클러스터 1 1
연주 - 노래 My-Cluster 12 3.
노래 My-Cluster 12 3.

이러한 주제는 스트리밍 응용 프로그램에서 S3 버킷으로 적절한 형식으로 이벤트를 수신, 변형 및 내보내기 위해 사용됩니다.결국, 주제음악 차트 - 노래 - 상점 - 변경 로그최종 구조로 모든 정보를 보유하므로 쿼리 할 수 있습니다.

분산 쿼리를 위해 Presto를 실행합니다

이 데모에서는 Presto의 S3 버킷 접두사 (관계형 데이터베이스의 테이블과 유사)를 쿼리하는 Presto의 기능을 사용할 것입니다.PRESTO는 생성 할 스키마가 필요합니다.이 예에서는 S3 버킷으로 내보내는 모든 이벤트를 쿼리 해야하는 파일 구조가 무엇인지 이해하기 위해 다음과 같습니다.

{ "count": 7, "songname": "좋은 나쁜 것과 추악한"}

각 파일은 JSON 구조로 내보내집니다. 이는 두 개의 키 값 쌍을 보유합니다.강조하기 위해, 당신은 그것을 테이블로 생각할 수 있으며, 첫 번째 열이있는 두 개의 열이있는카운트두 번째는노래 제목양동이에 쓰여지는 모든 파일은이 구조로 행이 있습니다.

이제 우리는 데이터 구조를 더 잘 이해 했으므로 Presto 클러스터를 배포 할 수 있습니다.이 클러스터는 스키마 메타 데이터를 저장하는 하이브 인스턴스 (스키마 정보를 저장하는 게시물이있는 경우)와 코디네이터 및 작업자 포드가 포함 된 PRESTO 클러스터를 저장합니다.해당 모든 자원은 OpenShift 운영자 허브의 일부로 제공되는 Presto 연산자가 자동으로 생성됩니다.

스크립트를 실행하여 해당 리소스를 만드겠습니다.

$ CD 04-PRESTO & AMP; & amp;./run.sh & amp; & amp;CD ..

이제 모든 포드가 성공적으로 생성되었는지 확인하겠습니다.

$ oc get pods |egrep -e "Presto | Postgres"
이름 준비 상태가 나이를 다시 시작합니다
hive-metastore-presto-cluster-576B7BB848-7BTLW 1/1 실행 0 15s
Postgres-68D5445B7C-G9QKJ 1/1 0 77S.
Presto-Coordinator-Presto-Cluster-8F6CFD6DD-G9P4L 1/2 실행 0 15s
PRESTO-OPERATOR-DBBC6BC6B78F-M6P6L 1/1 러닝 0 7H33M
Presto-Worker-Presto-Cluster-5B87F7C988-CG9M6 1/1 0 15S 실행

Visualizing real-time data with Superset

SuperSet은 시각화 도구로 Presto, Postgres 등 많은 JDBC 리소스에서 시각화 및 대시 보드를 제공 할 수 있습니다. Presto는 데이터를 탐색 할 수있는 기능, 사용 권한 및 RBAC를 제어 할 수있는 실제 UI가 없습니다.superset을 사용하십시오.

클러스터에 수퍼 세트를 배포하려면 스크립트를 실행하십시오.

$ CD 05-superset & amp; & amp;./run.sh & amp; & amp;CD ..

이제 모든 POD가 성공적으로 생성되었는지 확인하십시오.

$ oc get pods |그렙 수퍼 세트
superset-1-deploy 0/1 완료 0 72S.
Superset-1-G65XR 1/1 러닝 0 67S.
superset-db-init-6q75s 0/1 완료 0 71S

좋은!모두 잘 갔다!

데이터 논리 준비

모든 인프라 서비스가 준비되면 스트리밍 응용 프로그램 뒤에 데이터 로직을 만들어야합니다.PRESTO는 S3 버킷의 데이터를 쿼리 할 때 PRESTO가 데이터를 쿼리 해야하는 방법을 알 수 있도록 PRESTO가 구조 지식을 제공하는 테이블로서 PRESTO를 만들 수 있습니다.

귀하에게 로그인하십시오프레스토 코디네이터마디:

$ oc rsh $ (oc get pods | grep 코디네이터 | grep 실행 | awk '{$ 1}')

하이브 카탈로그로 작업하려면 컨텍스트를 변경하십시오.

$ presto-cli --catalog hive.

스키마를 만들어 Presto를 사용하여S3A.커넥터 S3 버킷 접두사에서 데이터를 조회하려면 다음을 수행하십시오.

$ schema hive.songs (location = 's3a : //music-chart-songsore-changelog/music-chart-songs-store-changelog.json/');

스키마 컨텍스트를 변경하고 테이블을 만듭니다.

$ USE HIVE.SONGS;
$ 테이블 곡 (count int, songname varchar)을 사용하여 (format = 'json', external_location = 's3a : //music-chart-songsstore-changelog/music-chart-songsore-changelog.json/');

주의하십시오!테이블 작성 이전 섹션에서 보았 듯이 각 파일의 구조에 대한 실제 지식을 Presto를 제공합니다.이제 S3 버킷을 쿼리하려고 시도하십시오.

곡에서 $ 선택 *
카운트 |노래 제목
------- + -------------
(0 행)쿼리 20210203_162730_00005_7HSQI, 완료, 1 노드
분할 : 17 합계, 17 완료 (100.00 %)
1.01 [0 행, 0b] [0 행 / S, 0b / s]

우리는 데이터가 없으며 괜찮습니다!우리는 모든 데이터를 스트리밍하기 시작하지 않았지만 PRESTO가 S3 서비스에 액세스 할 수 있음을 의미합니다.

실시간 이벤트 스트리밍

이제 모든 리소스가 사용할 준비가되었으므로 마침내 스트리밍 응용 프로그램을 배포 할 수 있습니다!우리의 스트리밍 응용 프로그램은 실제로 미디어 플레이어를 시뮬레이션하는 KAFKA 생산자이며, 미디어 플레이어가 무작위로 “재생”되는 노래 목록이 미리 정의 된 목록이 있습니다.사용자가 노래를 재생할 때마다 이벤트가 KAFKA 주제로 보내집니다.

그런 다음 데이터를 원하는 구조로 변환하기 위해 KAFKA 스트림을 사용하고 있습니다.스트림은 KAFKA로 전송되는 각 이벤트를 가져 와서 변형하고 다른 주제로 작성하여 자동으로 S3 버킷으로 내 보냅니다.

배포를 실행합시다.

$ CD 03 - 음악 차트 - 앱 및 amp; & amp;./run.sh & amp; & amp;CD ..

모든 포드가 실행 중인지 확인합시다플레이어 앱포드는 우리의 미디어 플레이어이며,음악 차트포드는 실제로 모든 KAFKA 스트림 로직을 보유하고있는 포드입니다.

$ oc get pods |egrep -e "플레이어 | 음악"
음악 차트 -576857C7F8-7L65X 1/1 러닝 0 18s.
Player-App-79FB9CD54F-BHTL5 1/1 러닝 0 19S

그를 살펴 보겠습니다플레이어 앱로그 :

$ oc 로그 플레이어 -POP-79FB9CD54F-BHTL52021-02-03 16 : 28 : 41,970 정보 [org.acm.playsongsgenerator] (RXComputationThreadPool-1) 노래 1 : 나쁜 것과 추악한 연주.
2021-02-03 16 : 28 : 46,970 정보 [org.acm.playsongsGenerator] (RXComputationThreadPool-1) 노래 1 : 나쁜 것이 좋고 추악한 연극.
2021-02-03 16 : 28 : 51,970 정보 [org.acm.playsongsgenerator] (RXComputationThreadPool-1) 노래 2 : 믿어.
2021-02-03 16 : 28 : 56,970 정보 [org.acm.playsongsGenerator] (RXComputationThreadPool-1) 노래 3 : 여전히 당신이 연주했습니다.
2021-02-03 16 : 29 : 01,972 Info [org.acm.playsongsGenerator] (RXComputationThreadPool-1) 노래 2 : 믿어.
2021-02-03 16 : 29 : 06,970 정보 [org.acm.playsongsgenerator] (RxComputationThreadPool-1) 노래 7 : Run에서 Fox가 연주되었습니다.

우리는 노래가 재생 될 때마다 데이터가 무작위로 쓰여지는 것을 알 수 있습니다. 이벤트가 KAFKA 주제로 보내집니다.자, 우리를 살펴 보겠습니다음악 차트로그 :

$ OC 로그 음악 차트 -576857C7F8-7L65X.[KTable-Tostream-0000000006] : 2, PlayedSong [Count = 1, SongName = 믿음]
[KTable-Tostream-0000000006] : 8, PlayedSong [Count = 1, SongName = Perfect]
[KTABLE-TOSTREAM-0000000006] : 3, PlayedSong [Count = 1, SongName = 아직도 당신을 사랑합니다]
[KTABLE-TOSTREAM-0000000006] : 1, PlayedSong [Count = 1, SongName = 좋음 및 추악한 선량]
[KTable-Tostream-0000000006] : 6, PlayedSong [Count = 1, SongName = 알 수 없음]
[KTABLE-TOSTREAM-0000000006] : 3, PlayedSong [Count = 2, SongName = 아직도 당신을 사랑합니다]
[KTable-Tostream-0000000006] : 5, PlayedSong [Count = 1, SongName = 때로는]
[KTable-Tostream-0000000006] : 2, PlayedSong [Count = 2, SongName = 믿음]
[KTABLE-TOSTREAM-0000000006] : 1, PlayedSong [Count = 2, SongName = 나쁜 것과 추악한 선량]

우리는 데이터가 성공적으로 변환되고 있으며 사용자가 더 많은 노래를 재생할 때 카운트 번호가 증가합니다.

이제 우리는 파이프 라인이 작동하는지 확인해야하므로 모든 이벤트가 성공적으로 내보내는 것을 확인하기 위해 S3 서비스를 보내야합니다.이 목적을 위해 나는 사용했습니다시체S3 브라우저로.올바른 자격 증명 및 엔드 포인트 URL을 사용하고 있는지 확인하십시오.

Presto Coordinator Pod으로 돌아가서 데이터를 다시 쿼리하십시오.

$ PRESTO & GT;PRESTO-CLI --CATALOG HIVE.
$ PRESTO : 노래 & gt;hive.songs를 사용하십시오;

데이터를 가져 오려면 SQL 쿼리를 실행하십시오.

곡에서 $ 선택 *
카운트 |노래 제목
--------------------------------------------------------
1 |보헤미안 랩소디
4 |아직도 너를 사랑해
1 |나쁜 것이 좋고 못생긴 것
3 |믿다
1 |완전한
1 |때때로
2 |나쁜 것이 좋고 못생긴 것
2 |보헤미안 랩소디
3 |아직도 너를 사랑해
4 |때때로
2 |알 수없는 것으로
4 |믿다
4 |알 수없는 것으로
2 |때때로
5 |아직도 너를 사랑해
3 |나쁜 것이 좋고 못생긴 것

놀랄 만한!우리는 데이터가 자동으로 업데이트되고 있음을 알 수 있습니다!이 명령을 몇 번 이상 실행하면 행 수가 자라는 것이 표시됩니다.이제 데이터 시각화를 시작하려면 Superset 경로를 찾으십시오. 여기서 콘솔에 로그인 할 수 있습니다.

$ oc 루트를 얻으십시오이름 호스트 / 포트 경로 서비스 포트 종단 와일드 카드
Superset superset-data-engineering-demo.apps.ocp.spaz.local superset 8088-tcp 없음

우리가 우리의 Superset 콘솔에 도달하면 (로그인하십시오관리자 : 관리자), 우리는 우리가 갈 수 있음을 알 수 있습니다.데이터베이스 관리– & gt;데이터베이스 만들기Preto 연결을 만들려면 Presto의 클러스터 서비스 이름을 입력했는지 확인하십시오. 마지막으로 연결을 테스트하십시오.

이제 데이터를 쿼리하는보다 편리한 방법을 가질 수 있으므로 데이터를 조금 탐색 해보자 시도 해보십시오.이동SQL LAB.및 이전 쿼리를 수행 할 수 있음을 확인하십시오.강조하기 위해 다음 쿼리를보고 각 노래가 얼마나 많은 시간을 보냈는지 보여줍니다.

좋은!데이터를 쿼리 할 수 있습니다!원하는 시각화와 대시 보드를 자유롭게 만들 수 있습니다.예를 들어, 대시 보드의 모든 새로 고침을 실제로 다시 쿼리 할 때 실시간으로 변경되는 대시 보드를 만들었습니다.

결론

이 데모에서는 OpenShift에서 예정된 모든 데이터 파이프 라인을 실행하기 위해 오픈 소스 제품을 활용할 수있는 방법을 보았습니다.kubernetes가 채택 기록을 끊으므로 조직은 쿠베르 라이트쪽으로 작업 부하를 움직이는 것을 고려해야하므로 데이터 서비스가 뒤에 남겨지지 않을 것입니다.Red Hat 및 Partner Operators를 사용하여 OpenShift는 Day-1 및 Day-2 관리를 데이터 서비스로 제공합니다.

이 블로그 게시물을 읽어 주셔서 감사합니다, 다음에 YA를 참조하십시오 🙂

Time Series Analysis with Facebook Prophet: How it works and How to use it -번역

2021년 2월 22일 by hyungseok

Facebook Prophet을 사용한 시계열 분석 : 작동 원리 및 사용 방법

페이스 북 수익의 수학적 설명과 COVID-19 데이터를 예로 들어 모델을 조정하는 방법.

미첼 크리거

시계열 데이터는 작업하기가 어렵고 답답할 수 있습니다.아르 자형먹은 모델은 매우 까다 롭고 조정하기 어려울 수 있습니다.이것은특별히여러 계절성이있는 데이터로 작업하는 경우 true입니다.또한 SARIMAX와 같은 기존 시계열 모델에는 정상 성 및 균등 한 간격 값과 같은 엄격한 데이터 요구 사항이 많이 있습니다.장기 기억이있는 반복 신경망 (RNN-LSTM)과 같은 다른 시계열 모델은 신경망 아키텍처에 대한 이해가 부족한 경우 매우 복잡하고 작업하기 어려울 수 있습니다.따라서 평균 데이터 분석가에게는 시계열 분석에 대한 진입 장벽이 높습니다.그래서 2017 년에 페이스 북의 몇몇 연구자들은 오픈 소스 프로젝트를 소개 한“대규모 예측”이라는 논문을 발표했습니다.페이스 북 예언자, 빠르고 강력하며 액세스 가능한 시계열 모델링을 어디서나 데이터 분석가와 데이터 과학자에게 제공합니다.

Facebook Prophet을 더 자세히 살펴보기 위해 먼저 그이면의 수학을 요약 한 다음 Python에서 사용하는 방법을 살펴 보겠습니다 (R에서도 구현할 수 있음).

Facebook Prophet이란 무엇이며 어떻게 작동합니까?

Facebook Prophet은 몇 가지 새로운 변형과 함께 몇 가지 오래된 아이디어를 사용하는 시계열 모델을 생성하기위한 오픈 소스 알고리즘입니다.여러 계절성이 있고 위의 다른 알고리즘의 단점 중 일부에 직면하지 않는 시계열 모델링에 특히 유용합니다.핵심은 세 가지 시간 함수와 오류 항의 합계입니다.g (t), 계절성성), 공휴일h (t)및 오류e_t:

성장 기능 (및 변화 지점) :

성장 함수는 데이터의 전반적인 추세를 모델링합니다.선형 및 로지스틱 함수에 대한 기본 지식이있는 사람에게는 오래된 아이디어가 익숙해야합니다.Facebook 선지자에 통합 된 새로운 아이디어는 성장 추세가 데이터의 모든 지점에 나타나거나 Prophet이 “변경 지점”이라고 부르는 지점에서 변경 될 수 있다는 것입니다.

변경점은 데이터가 방향을 이동하는 데이터의 순간입니다.예를 들어 새로운 COVID-19 사례를 사용하면 백신이 도입 된 후 정점에 도달 한 후 새로운 사례가 떨어지기 시작할 수 있습니다.또는 새로운 균주가 인구에 도입되는 경우 갑작스런 사례가 나타날 수 있습니다.예언자는 변화 지점을 자동으로 감지하거나 직접 설정할 수 있습니다.또한 자동 변경점 감지에서 고려되는 데이터의 양과 성장 기능을 변경하는 데있어 변경점이 갖는 힘을 조정할 수도 있습니다.

성장 기능에는 세 가지 주요 옵션이 있습니다.

선형 성장 :이것은 예언자의 기본 설정입니다.변화 점간에 기울기가 다른 부분 선형 방정식 세트를 사용합니다.선형 성장을 사용하면 성장 기간이 고전과 유사하게 보입니다.y = mx + b중학교부터는 기울기 (m)와 오프셋 (b)은 가변적이며 각 변경점에서 값이 변경됩니다.
물류 성장 :이 설정은 시계열에 모델링하는 값이 포화되고 최대 값 또는 최소값을 초과 할 수없는 상한 또는 하한이있는 경우에 유용합니다 (이동 능력을 고려).물류 성장이 사용되는 경우 성장 기간은 운반 능력 (C)이 시간과 성장률 (k) 및 오프셋의 함수에 따라 달라진다는 점을 제외하고는 물류 곡선 (아래 참조)에 대한 일반적인 방정식과 유사하게 보입니다.(m)은 가변적이며 각 변화 지점에서 값이 변경됩니다.

플랫:마지막으로, 시간이 지남에 따라 성장이 없을 때 플랫 추세를 선택할 수 있습니다 (하지만 여전히 계절성이있을 수 있음).플랫으로 설정하면 성장 기능이 일정한 값이됩니다.

계절성 함수 :

계절성 함수는 단순히 시간 함수로서의 푸리에 급수입니다.푸리에 시리즈에 익숙하지 않은 경우이를 쉽게 생각할 수있는 방법은 연속 된 사인과 코사인의 합입니다.각 사인 및 코사인 항에 일부 계수를 곱합니다.이 합계는 거의 모든 곡선이나 Facebook Prophet의 경우 데이터의 계절성 (주기적 패턴)과 비슷할 수 있습니다.모두 다음과 같이 보입니다.

위의 내용을 해독하기 어렵다면 이걸 추천합니다푸리에 시리즈의 간단한 분석아니면 이거푸리에 시리즈의 직관에 대한 비디오.

여전히 푸리에 시리즈를 이해하는 데 어려움을 겪고 있다면 걱정하지 마십시오.Prophet이 시리즈에서 최적의 용어 수 (푸리에 순서라고도 함)를 자동으로 감지하므로 Facebook Prophet을 계속 사용할 수 있습니다.또는 이해에 자신이 있고 더 많은 뉘앙스를 원하는 경우 특정 데이터 세트의 요구 사항에 따라 푸리에 순서를 선택할 수도 있습니다.순서가 높을수록 계열의 용어가 더 많습니다.덧셈과 곱셈 계절성 중에서 선택할 수도 있습니다.

휴일 / 이벤트 기능 :

휴일 기능을 사용하면 Facebook Prophet이 휴일 또는 주요 이벤트로 인해 예측이 변경 될 때 예측을 조정할 수 있습니다.날짜 목록을 사용하고 (미국 공휴일의 기본 제공 날짜가 있거나 사용자가 직접 날짜를 정의 할 수 있음) 예측에 각 날짜가있을 때 과거 데이터를 기반으로 성장 및 계절성 조건에서 예측 값을 더하거나 뺍니다.확인 된 휴일 날짜에.또한 날짜에 따라 다양한 요일을 식별 할 수 있습니다 (크리스마스 / 새해, 휴일 주말, 추수 감사절과 블랙 프라이데이 / 사이버 먼데이 등).

Facebook Prophet 사용 및 조정 방법

R 또는 Python으로 구현할 수 있지만이 블로그에서는 Python에서의 사용에 중점을 둘 것입니다.Python 3.7 이상이 필요합니다.설치하기 위해서:

$ pip install pystan
$ pip 설치 fbprophet

Prepare the data

pandas를 사용하여 데이터를 읽고 정리 한 후에는 거의 Facebook Prophet을 사용할 준비가되었습니다.그러나 Facebook Prophet에서는 시계열의 날짜가 제목의 열에 있어야합니다.ds및 제목 열의 시리즈 값와이.물류 성장을 사용하는 경우 추가로 추가해야합니다.캡과바닥시계열의 각 특정 시간 항목에서 가능한 증가의 최대 값 및 최소값이있는 열.

데모를 위해 New York Times가 Github에서 추적 한 새로운 COVID-19 사례를 사용합니다.먼저 위의 형식으로 데이터를 읽고 준비합니다.여기에 물류 성장이있는 것 같지 않기 때문에ds과와이열 :

기본 Facebook Prophet 모델 실행

Facebook Prophet은 scikit-learn과 유사하게 작동하므로 먼저 모델을 인스턴스화 한 다음.fit (ts)그것을 통해 시계열을 전달합니다.전화 할 때.predict (ts), 예언자는 많은 정보를 출력합니다.운 좋게도 개발자는.make_future_dataframe (기간 = 10)모든 출력물을 체계적으로 쉽게 수집 할 수 있습니다.이 메서드는 다음을 사용하여 예측으로 채울 빈 Pandas 데이터 프레임을 출력합니다..predict (ts)방법.예측에는 데이터 세트에있는 모든 과거 값에 대한 예측과 메서드를 통해 전달 된 기간 수에 대한 추가 예측이 포함됩니다 (10을 초과하는 경우).이 미래 데이터 프레임에는 유용한 정보 열이 많이 있지만 가장 중요한 열은 다음과 같습니다.

ds예측의 타임 스탬프 항목을 포함합니다.
야트시계열의 예측 값을 포함합니다.
yhat_lower예측에 대한 신뢰 구간의 하단을 포함합니다.
yhat_upper예측에 대한 신뢰 구간의 하단을 포함합니다.

ㅏ.음모()또한 원래 데이터, 예측 및 모델의 신뢰 구간을 쉽게 플로팅 할 수 있도록 기능이 제공됩니다.이 모델의 첫 번째 반복에서는 Prophet이 자동으로 하이퍼 파라미터를 선택하도록 할 것입니다.

그러면 다음과 같은 플롯 된 예측이 출력됩니다.

다음 코드를 추가하여 위의 플롯에 변경점을 추가 할 수도 있습니다.

하이퍼 파라미터를 조정하지 않은 것을 고려하면 꽤 괜찮은 것 같습니다!예언자는 새로보고 된 사례의 주간 계절 성과 (아마도 테스트 장소의 주말 시간이 다르기 때문에) 전체적인 상승 추세를 확인했습니다.또한 새로운 사례의 비율이 크게 증가하는 것을 더 잘 모델링하기 위해 여름과 가을에 변화 지점을 추가했습니다.그러나 시각적으로 전반적으로 훌륭한 모델처럼 보이지 않으며 원본 데이터의 많은 주요 추세를 놓치고 있습니다.따라서 무슨 일이 일어나고 있는지 더 잘 평가하기 위해 조정해야합니다.

Facebook Prophet 조정

위 모델의 주요 문제 중 일부를 수정 해 보겠습니다.

침체를 놓친다 :예언자는 새해 이후 새로운 COVID 사례에 침체를 통합 할 수 없었습니다.이는 변경점을 식별 할 때 고려되는 데이터 포인트 범위의 기본 설정이 시계열 데이터의 처음 80 %이기 때문입니다.이 문제는changepoint_range = 1데이터의 100 %를 통합 할 모델을 인스턴스화 할 때.다른 상황에서는 모델이 데이터에 과적 합하지 않고 마지막 20 %를 스스로 이해할 수 있도록 변경점 범위를 80 % 이하로 유지하는 것이 좋습니다.하지만이 경우 지금까지 발생한 상황을 정확하게 모델링하려고하기 때문에 조정을 100 %로 허용합니다.
변화 지점의 강점 :위대한 선지자는 변화 지점을 만들 수 있었지만 시각적으로 일부 변화 지점이 모델에 미치는 영향이 매우 약하거나 변화 지점이 충분하지 않은 것처럼 보입니다.그만큼changepoint_prior_scale그리고n_changepoints하이퍼 파라미터를 사용하면이를 조정할 수 있습니다.기본적으로,changepoint_prior_scale이 값을 늘리면 더 많은 변경점을 자동으로 감지 할 수 있고 감소하면 더 적게 허용합니다.또는 다음을 사용하여 감지 할 여러 변경점을 지정할 수 있습니다.n_changepoints또는 직접 사용하여 변경점을 나열하십시오.변경점.변경점이 너무 많으면 과적 합이 발생할 수 있으므로주의하십시오.
계절성으로 인한 과적 합 가능성 :새로운 사례의 주간 계절성을 파악한 것은 멋지지만,이 특정 상황에서는 유행병이 언제 끝날지 예측하기 위해 사례의 전반적인 추세를 이해하는 것이 더 중요합니다.Prophet에는 매일, 매주 및 매년 계절성을 조정할 수있는 하이퍼 파라미터가 내장되어 있습니다.그래서 우리는weekly_seasonality = False.또는 사용자 지정 계절성을 만들고 다음을 사용하여 푸리에 순서를 조정할 수 있습니다..add_seasonality ()방법을 사용하거나 다음을 사용하여 자동 계절성을 완화 할 수 있습니다.season_prior_scale하이퍼 파라미터.그러나이 경우 이러한 옵션 중 하나를 사용하는 것은 약간 과잉 일 수 있습니다.

이러한 변경 사항으로 모델을 다시 실행하면 다음이 생성됩니다.

와!하이퍼 파라미터에 대한 세 가지 작은 변경을 통해 지난 1 년 동안 새로운 COVID 사례의 행동에 대한 매우 정확한 모델을 확보했습니다.이 모델에서는 3 월 초에 사례가 거의 0에 가까워 질 것으로 예측합니다.케이스가 점근 적으로 감소하기 때문에 이것은 아마도 가능성이 낮습니다.

Facebook Prophet은 사용하기 쉽고 빠르며 다른 종류의 시계열 모델링 알고리즘이 직면하는 많은 문제에 직면하지 않습니다 (제가 가장 좋아하는 것은 결 측값을 가질 수 있다는 것입니다!).API에는 다음이 포함됩니다.선적 서류 비치앞으로 나아가고 교차 검증을 사용하고 외부 변수를 통합하는 방법 등에 대해 설명합니다.당신은 또한 확인할 수 있습니다이 GitHub 저장소이 블로그에 사용 된 코드가 포함 된 Jupyter 노트북 용입니다.

Fundamentals aboutScalability of Software Systems -번역

2021년 2월 21일 by hyungseok

소프트웨어 시스템의 확장성에 대한 기본 사항

확장 가능한 시스템 설계를위한 Intuition 구축 가이드

Gaurav Goel

Photo by Sam Moqadam on Unsplash

나는당신이 식료품 점의 주인이라고 상상해보십시오.청구 카운터가 하나 있습니다.고객이 당신의 상점, 물건을 골라서이 청구서 카운터에 줄을 서서 지불하십시오.고객을 돌보는 청구 카운터 뒤에 John이라는 직원이 있습니다.John은 각 고객을 미소로 맞이하고 청구하는 동안 고객과 작은 대화를 나누는 행복한 행운의 사람입니다.John은 매장의 고객 수가 적을 때 자신 만의 달콤한 시간을 보냅니다.줄 서두르지 않고 아무도 불평하지 않습니다.그러나 서두르는 날이 많을 때 John은 대화를 줄이고 빠르게 움직이고 고객을 관리하려고합니다.

얼마 지나지 않아 식료품 가게가 마을에서 유명해지면서 매장으로 유입되는 고객이 몰려 드는 것을 볼 수 있습니다.그것은 사업에 매우 좋습니다.그러나 이제 당신은 문제에 직면 해 있습니다.직원 John 1 명과 청구 카운터 하나만 있습니다.John은 고객 부담을 처리하기 위해 최선을 다하고 있지만 그가 투입 할 수있는 노력에는 물리적 한계가 있습니다. 결국 그는 인간입니다.또 다른 문제가 있습니다.John이 건강하지 않거나 휴가를 가야하는 날이 있습니다.이러한 경우에는 다른 일을하기 위해 주로 외곽에 있기 때문에 상점을 닫아야합니다.가게는“유효한”그런 날에.

당신은해야“규모”이러한 문제를 해결하기 위해

Sam이라는 다른 직원을 고용하고 두 번째 청구 카운터를 열기로 결정했습니다.이것은“하중”존에.2 개의 대기열이 있습니다.일부 고객은 Sam으로 이동하고 다른 고객은 John으로 이동합니다.당신은 행복하고 John은 행복하며 고객도 행복합니다.이것은 또한 두 번째 문제를 어느 정도 해결합니다.직원 중 한 명을 사용할 수없는 날에는 다른 직원이 고객을 처리 할 수 있습니다.물론 그에 대한 부담은 훨씬 더 많 겠지만 적어도 그날 매장을 닫을 필요는 없습니다.여전히 “사용 가능”합니다.

결국 고객 수가 계속 증가하고 있으며 세 번째 청구 카운터를 열고 세 번째 직원을 고용하기로 결정합니다.이 전략은 효과가 있습니다.상점은 항상 가득 차 있으며 고객은 이제 3 개의 대기열을 형성합니다.그러나 때로는 한 청구 카운터에서 다른 것보다 라인이 큰 상황이 있습니다.고객은 임의의 카운터에 서기로 결정하고 한 직원은 매우 바쁘고 다른 두 직원은 상대적으로 자유로울 수 있습니다.이러한 상황을 극복하기 위해 네 번째 직원을 고용합니다.그의 임무는 3 개의 카운터 모두 중앙에 서서 어떤 카운터가 무료인지 등을 확인하여 고객에게 어디로 가도록 안내하는 것입니다.그는 직원들에게 어느 정도 균등하게 분산되도록 작업 부하를 “균형”합니다.

===================================

이것이 소프트웨어 애플리케이션과 어떤 관련이 있습니까?거의 모든 부분.

매우 높은 수준에서 소프트웨어 웹 애플리케이션은 애플리케이션을 호스팅하는 웹 서버와 데이터를 유지하는 데이터베이스 서버로 구성됩니다.위의 이야기에서-

“식료품 점”을 “소프트웨어 응용 프로그램”으로 교체

John을이 응용 프로그램을 유지 관리하는 웹 서버 / 데이터베이스 서버로 바꿉니다.

고객을 애플리케이션의 “사용자”로 바꾸십시오.

이 설정의 아키텍처는 다음과 같습니다.

사용자 (또는 고객)는 URL (www.myapplication.com)을 통해 애플리케이션에 액세스합니다.HTTP 요청은 웹 서버로 전송됩니다.웹 서버는 HTML 페이지를 반환합니다.웹 서버 / DB 서버를 John이 고객의 요청을 처리하는 것처럼 생각하십시오.고객 수가 증가하면 설정 (예 : John)에 대한 부하가 증가합니다.고객은 응답 속도가 느리거나 웹 서버 / DB 서버가 사용 중이기 때문에 응답을받지 못하는 고객이있을 수 있습니다.너 뭐하니?당신은해야“규모”

Vertical Scaling

수직 확장 ( “확장”이라고도 함)은 서버에 더 많은 전력을 추가하는 것을 의미합니다.예 : 더 많은 부하를 처리 할 수 있도록 더 많은 CPU 또는 RAM을 추가합니다.이것은 John이 더 많은 에너지를 사용하고 잡담을 줄이고 빠르게 행동하기 시작한다고 말하는 것과 같습니다.나는 이것이 매우 나쁜 비유라는 것을 알고 있지만 당신은 아이디어를 얻습니다.

수직 확장에는 제한이 있습니다.하나의 서버에 무제한 메모리 또는 모든 무제한 CPU를 추가 할 수는 없습니다.그것은 존이 자신의 신체적 한계만큼 빨리 행동 할 수 있다고 말하는 것과 같습니다.그 이상은 아닙니다.또한이 경우 서버가 다운되면 (John이 휴가를 떠난다) 애플리케이션이 다운됩니다.”사용할 수 없음”이됩니다.

수평 확장

수평 확장 또는 “확장”은 설정에 더 많은 서버를 추가하는 것을 의미합니다.추가 직원을 고용하고 매장에 더 많은 청구 카운터를 여는 것과 같습니다.이 접근 방식은 사용자가 많고 데이터 처리가 필요한 대규모 애플리케이션에 더 적합합니다.설정에 추가 할 수있는 서버 수에는 사실상 제한이 없습니다.따라서 애플리케이션은 가능한 한 많은로드를 처리 할 수 있습니다.설정에 많은 서버가있는 경우“로드 밸런서”들어오는 트래픽을 서버에 균등하게 분배하기 위해 (식료품 점에 대한 이야기에서 고객을 다른 청구 카운터로 안내하는 일을 맡은 네 번째 직원을 고용했습니다.)

이렇게하면 문제도 해결됩니다. 한 서버가 다운 되어도 다른 서버는 계속 작동 할 수 있으며 응용 프로그램이 “사용 불가능”상태가되지 않습니다.이 개념은“고 가용성”.

데이터베이스 복제

위의 시스템 설계 (예…. 시스템 설계 또는 소프트웨어 아키텍처라고 부를 수 있음)에서 우리는 웹 서버를 관리했습니다.데이터베이스 서버는 어떻습니까?또한 데이터베이스 서버를 확장 할 수 있습니다.이것은 … 불리운다데이터베이스 복제.아이디어는 간단합니다.마스터 데이터베이스와이 마스터 데이터베이스의 여러 복사본 (슬레이브라고 함)이 있습니다.모든 삽입 / 업데이트 / 삭제는 마스터 DB에서 수행되고 슬레이브는 읽기 전용 데이터 저장소로 사용됩니다.이렇게하면 데이터베이스의 고 가용성도 보장됩니다.

작성자 별 이미지

간단히 말해서 확장성에 대해 생각하거나 소프트웨어 응용 프로그램이나 시스템 설계 또는 소프트웨어 아키텍처가 확장 가능하다고 말할 때 이는 시스템이 허용 가능한 응답 시간 제한 내에서로드 또는 요청을 처리 할 수 있음을 의미합니다.

웹 서버와 데이터베이스 서버의 수평 적 확장은이를 달성하는 훌륭한 방법입니다.하지만로드 / 응답 시간을 개선하기 위해 할 수있는 다른 조치가 있습니까?

캐싱

애플리케이션이 사용 중일 때 기본적으로 데이터베이스에 대한 요청이 처리되고 사용자에게 제공됩니다.이러한 요청 중 일부는 동일하고 반복적 일 수 있습니다.이러한 요청에 해당하는 데이터를 데이터베이스보다 빠른 임시 저장소에 저장하면 의미가 있습니다.”캐시”는 그러한 스토리지 중 하나입니다.애플리케이션 아키텍처에 캐시를 추가 할 수 있습니다.요청을 받으면 웹 서버는 먼저 데이터가 캐시에서 사용 가능한지 확인합니다.그렇다면 캐시에서 가져 와서 클라이언트로 보냅니다.그렇지 않으면 데이터베이스를 쿼리하고 데이터를 캐시에 저장 한 다음 클라이언트로 보냅니다.

이 기사가 확장성에 대해 생각하는 방법에 대한 접근 방식을 제공하기를 바랍니다.확장 가능한 시스템을 설계하고 구축하기위한 다른 많은 보완 기술이 있습니다.나는 후속 기사에서 그것들을 다루려고 노력할 것입니다.

ATP Tennis Cluster Analysis -번역

2021년 2월 20일 by hyungseok

ATP 테니스 클러스터 분석

클러스터 분석을 사용하여 테니스 경기 스타일 분할

데릭 오스틴

1 일 전·7 분 읽기

Photo by Ryan Searle on Unsplash

최근 몇 년 동안 거의 모든 스포츠가 분석 혁명의 일부였습니다.publi로 밀어씨스카우트에 대한 수학 접근 방식을 개척 한 오클랜드 A의 GM 빌리 빈의 이야기 인 ‘머니 볼’과 함께 분석은 모든 종류의 스포츠에 널리 퍼져 있습니다. 3 점 혁명의 농구, ” BigData Bowl “은 Michael Lopez가 운영하고 있으며 리버풀이 분석 분야에서 리그 리더가되어 리그 우승을 지원 한 프리미어 리그까지도 이어졌습니다 .¹ 야구는 1 대 1 매치업, 투수 대 타자, 개별 가치를 정량화하고 팀원의 긍정적 인 영향과 부정적인 영향을 분리하는 것이 더 쉽습니다. 1 대 1 상호 작용을 특징으로하는 또 다른 게임 인 테니스에서도 유사한 혁신이 일어났다 고 생각할 수 있지만, 테니스는 분석에서 다른 스포츠보다 훨씬 뒤처졌습니다. 최근 테니스 팬들이 노출 된 유일한 고급 분석 측정은 나무 기반 접근 방식에서 승리를 확보하기 위해 각 선수에게 가장 중요한 통계 인 IBM Watson의 ‘경기의 핵심’입니다. 퍼블릭 도메인에서 테니스 분석의 발전은 전적으로 테니스 분석의 Bill James 인 Jeff Sackman에게 기인 할 수 있습니다.

Sackman은 끊임없이 경기 통계를 수집하고 사용자 지정 코딩 절차를 사용하여 경기를 차트로 작성하고 GitHub와 그의 사이트 Tennis Abstract에서 수년간 데이터 세트를 공개했습니다 .² 또한 Novak Djokovic이 그의 팀에 Craig O’Shaughnessy를 설교하는 전략 코치를 추가했을 때 그는 과거에 테니스 분석 열정 프로젝트를 추구 한 사람들에게 스포츠 데이터의 가치를 상징적으로 부양했습니다. 일대일 매치업이 포함 된 다른 게임과 마찬가지로 ELO 점수는 선수의 상대적인 힘을 찾는 데 사용되었습니다 .³ 그러나 테니스를 치른 많은 사람들이 알고 있듯이 테니스는 매치업의 영향을받는 독특한 게임입니다. 6 피트 7 인치의 빅 서버로 대학에서 테니스를 쳤기 때문에,베이스 라인 뒤에 서서 승자가되지 않고 많은 볼을 플레이하는 작은 ‘그라인더’를 상대하는 것이 싫었습니다. 나는 Sackman의 데이터 세트와 K-Means 클러스터 분석을 통해 테니스를 특징 짓는 다양한 플레이 스타일의 패턴을 찾을 수 있고 궁극적으로 어떤 클러스터가 상대방보다 이점이 있는지 결론을 내릴 수 있다고 가정했습니다.

Sackman의 기본 ‘박스 스코어’데이터 세트1968 년까지 거슬러 올라가는 각 경기에 대해 단일 행을 제공합니다. 저는 2011 년부터 파일을 비교적 임의의 시작점으로 분석하기로 선택했지만, 지난 게임이 크게 바뀌었기 때문에 분석 관련성을 유지하기로했습니다. 20 년. 통계는 에이스, 1 차 서브 인, 더블 폴트 등과 같은 메트릭을 사용하여 각 경기에 대한 기본 정보를 제공합니다. 데이터 세트는 포인트가 승자, 강제 또는 비 강제에서 획득 한 경우 랠리 길이와 같은 랠리 메트릭을 제공하지 않습니다. 오류 또는 인터넷에서 이겼는지 여부. 그러나 첫 번째 서브 비율, 획득 한 서비스 포인트 비율, 획득 한 리턴 포인트 비율과 같은 기본 통계는 각 플레이어의 플레이 스타일과 상대적 강점에 대한 통찰력을 제공합니다. 데이터를 Python으로로드 한 후 관련 통계에 대해 null 값이있는 행을 삭제했습니다. 다음으로 각 일치 항목에 대해 두 개의 행을 만들었습니다. 첫 번째 행은 Sackman이 승리 한 플레이어에게 제공하는 고유 ID가있는 승자의 통계로 구성되며 두 번째 행은 패자에 대해 동일한 프로세스를 따릅니다. 이 단계는 두 가지 이유로 필요했습니다. 먼저 통계는 승자와 패자로 구성됩니다 (예 : w_ace는 승자 에이스 열이고 l_ace는 패자 에이스 열). 따라서 각 플레이어에 대한 통계를 도출하기 위해 별도의 매핑을 만들어야했습니다. 결과에 관계없이 경기에 대한 통계와 일치합니다. 둘째, 각 경기 후 첫 번째 서빙 비율과 같은 통계를 계산하는 데 사용할 누계를 계산하기 위해 각 플레이어의 날짜와 ID로 정렬해야했습니다. 데이터에 대한 느낌을 드리기 위해 아래는 ATP 투어 파이널에서 Dominic Thiem과의 마지막 경기 이후 Djokovic의 커리어 서비스 통계 스크린 샷입니다.

각 플레이어의 복귀 게임에 대해 동일한 통계를 계산했습니다. 또한 모든 점수의 퍼센트 및 분당 점수와 같은 일반적인 통계를 계산했습니다. 랠리 길이와 상관 관계가있을 것이라고 생각했기 때문입니다 (위에서 언급했듯이데이터).놀랍게도 노박 조코비치와 같은 선수조차도 점수의 50 %를 이길 수있는 최고 선수와 평균적인 선수 사이에 상대적으로 낮은 분포를 나타내는 55 %의 점수 만 얻습니다.이것은 1 % 개선이 많은 플레이어에게 수십만 달러의 차이가 될 수 있음을 의미합니다.

다음으로 데이터를 표준화하기 위해 Scikit-Learn의 전처리 라이브러리를 활용 한 다음 Scikit-Learn에서 사용할 수있는 미니 배치 클러스터링 기능에 제공했습니다.그래프에서 ‘팔꿈치’를 찾는 동안 2 ~ 10 범위의 다양한 클러스터 크기를 시도했습니다 (4 개의 클러스터에있는 것처럼 보임).’elbow’방법은 최적의 클러스터에 대한 매우 주관적인 측정이지만 내 분석에는 충분했습니다 (클러스터링 검사에 대한 조정이 필요한 경우여기).

클러스터링의 마법은 다시금 성과를 거두었으며 데이터 내에서 네 가지 뚜렷한 연주 스타일을 찾을 수있었습니다. 첫 번째 클러스터는 가장 높은 에이스 비율, 가장 키가 큰 개인 및 가장 높은 첫 번째 서브 승리 확률로 특징 지워졌습니다. 그들은 그들의 점수의 약 50 %를 얻었고 예상되는 하드와 잔디 코트에서 가장 많은 양을 뛰었습니다. 다음 클러스터는 평범한 플레이어를 모으는 것처럼 보였습니다. 백분율로 보면, 그들은 가장 적은 점수를 얻었고, 모든 표면에 약간 균등하게 경기를 펼쳤으며, 가장 적은 수의 경기를 이겼습니다 (38 %). 이 그룹이 가장 큰 그룹 이었지만, 플레이어는 데이터 세트에서 가장 적은 수의 경기를 평균하고 있었는데, 이는 이들이 도전자 투어와 프로 투어 사이를 오가는 플레이어였으며,이를 크게 만들기 위해 고군분투하고 있었음을 의미합니다. 클러스터 크기를 늘리기로 선택하면이 그룹이 더 세분화 된 수준으로 분류 될 것이라고 생각합니다. 다음으로 우리는 테니스 세계에서 최고의 개인 선수를 말하는 또 다른 방법 인 ‘올 코터’를 가지고 있습니다. Federer, Nadal, Djokovic과 같은 플레이어는 클러스터가 총점의 53 %를 획득하고 게임당 최소 브레이크 포인트 기회를 포기하고 두 번째 서브에서 가장 많은 포인트를 획득하기 때문에이 그룹에 속할 가능성이 높습니다. 마지막으로 클레이 코트 그라인더가 있습니다. 그들은 경기의 37 %를 클레이로 플레이하는데 5 %가 가장 높고 첫 서브 비율이 가장 낮고 첫 서브에서 포인트를 얻었지만 게임당 가장 많은 브레이크 포인트를 만들어서 보상합니다. 다음은 각 클러스터에 대한 다양한 요약 통계의 자세한 차트입니다.

캡처 할 수있는 항목을 기반으로 한 각 클러스터에 대한 요약 통계

다음으로, 각 코호트별로 서로에 대한 다양한 승률과 다양한 표면을 조사했습니다.

클러스터 Y에 대한 클러스터 X 승률

클러스터 2, ‘모든 구애 자’는 관련된 모든 사람과 가장 잘 맞았고 그라인더 게임에 대한 나의 두려움은 실제로 큰 서버가 클러스터 3 서버와의 경기에서 56 %를 이겼 기 때문에 비합리적이었습니다.또한 흥미로운 점은 클러스터 0에있는 사람들이었습니다. ‘빅 히터’는 다른 코호트보다 클러스터 2를 혼란스럽게 할 가능성이 더 큽니다.직관적으로, John Isner 또는 Kevin Anderson과 같은 선수가 자신의 힘이 누구에게도 너무 큰 것처럼 보이는 토너먼트에서 ‘핫’한 것을 보았 기 때문에 이것은 의미가 있습니다.일반적으로 상대를 압도 할 수없고 전술에 의존해야하는 스펙트럼 그라인더의 다른 쪽에서는 결과가 훨씬 더 일관 적입니다.아래는 하드, 클레이 및 잔디에 해당하는 그래프이며, 총 승률 (코트 별 승률 %-총 승률)에 대한 각 그룹의 상대적 우위는 하드 및 잔디 코트에 대한 대형 서버 전문 지식과 클레이에 대한 그라인더 숙련도를 더욱 잘 보여줍니다..

이것이 시작점 역할을하는 동안 Jeff Sackman은 2011 년까지 거슬러 올라가는 그랜드 슬램의 포인트 별 데이터를 발표했습니다.이 데이터는 랠리 메트릭스에 대한 추가 통찰력을 제공 할 것입니다.이 데이터는 클러스터를 더 공격적이고 순 마음이있는 그룹별로 그룹화 할 수 있습니다.베이스 라인에서 10 개 이상의 샷을 랠리하는 콘텐츠.앞으로 몇 주 안에 파트 2에서 찾아보세요.

Schoenfeld, Bruce.데이터 (및 일부 숨막히는 축구)가 리버풀을 영광의 끝으로 가져온 방법.https://www.nytimes.com/2019/05/22/magazine/soccer-data-liverpool.html
Sackman, Jeff.Gitbub 홈페이지.https://github.com/JeffSackmann
테니스 추상 Elo 등급.http://tennisabstract.com/reports/atp_elo_ratings.html
Sackman, Jeff.중단 점의 영향 측정.http://www.tennisabstract.com/blog/2019/01/04/measuring-the-impact-of-break-points/

Superhuman AI and the future of democracy and government -번역

2021년 2월 19일 by hyungseok

팟 캐스트

초인적 AI와 민주주의와 정부의 미래

Ben Garfinkel은 인류의 미래에 대해 예측할 수있는 것과 할 수없는 것을 탐구합니다.

제레미 해리스

1 일 전·53 분 읽기

To select chapters, visit the Youtube video here.

편집자 주 :이 에피소드는 데이터 과학 및 기계 학습의 새로운 문제에 대한 팟 캐스트 시리즈의 일부입니다.,Jeremie Harris가 주최합니다.팟 캐스트 호스팅 외에도 Jeremie는 데이터 과학 멘토링 스타트 업을 운영하는 데 도움을줍니다.SharpestMinds.아래 팟 캐스트를들을 수 있습니다.

APPLE | GOOGLE | SPOTIFY | OTHERS

우리가 점점 더 정교한 A를 계속 개발함에 따라나는시스템, 점점 더 많은 경제학자, 기술자 및 미래 학자들이이 모든 발전의 종말점이 무엇인지 예측하려고 노력해 왔습니다.인간은 무관할까요?우리가 여가 시간으로하고 싶은 것부터 사회를 관리하는 방법에 이르기까지 모든 결정을 기계에 맡길 것인가?그리고 민주주의와 거버넌스의 미래에 대해 매우 유능하고 매우 일반적인 AI 시스템의 출현은 무엇을 의미합니까?

이러한 질문은 완전하고 직접적으로 답하기는 불가능하지만 인간 기술 발전의 역사를 장기적으로 살펴보면 힌트를 얻을 수 있습니다.이것이 제 게스트 인 Ben Garfinkel이 AI의 미래에 대한 연구에 적용하고있는 전략입니다.Ben은 현재 Oxford의 Future of Humanity Institute에서 신흥 기술의 위험 예측에 대한 연구를 수행하는 물리학 자이자 수학자입니다.

AI와 같은 기술의 미래 영향을 예측하는 연구 외에도 Ben은 AI 위험에 대한 몇 가지 고전적인 주장을 탐구하는 데 시간을 보냈습니다.팟 캐스트에 이러한 위험을 진지하게 받아들이는 게스트가 많았 기 때문에 벤에게도 그의 견해에 대해 이야기 할 가치가 있다고 생각했고 그렇게해서 매우 기쁩니다.

다음은 우리 대화에서 제가 가장 좋아하는 테이크 홈입니다.

당연히 미래를 예측하는 것은 어렵습니다.그러나 인공 지능과 그것이 경제에 미치는 영향과 관련하여 특히 어렵게 만드는 것 중 하나는 AI가 표준 경제 모델에 포함 된 많은 가정에 도전 할 가능성이 있다는 것입니다.예를 들어, 시장이 돈을 벌고 제품에 지출하려는 사람들로 구성된다는 생각 자체가 대부분의 구매 및 판매 결정이 기계에 의해 이루어지는 세상으로 일반화되지 않을 수 있습니다.마찬가지로, 우리는 현재 노동 (사람들이 물건을 만들고 서비스를 제공하기 위해 투입하는 작업)과 자본 (도구, 장비, 물건을 만들거나 다른 물건을 만드는 데 사용하는 물건) 사이에 매우 분명한 차이가 있다고 가정합니다.AI 시스템이 자본으로 간주되는 세상에 어떤 경제적 직관이 일반화 될지는 분명하지 않지만 대부분의 노동을 수행하고 있습니다.
경제학자, 역사가, 미래 학자 간의 활발한 논쟁 중 하나는 세계 인간 경제의 성장과 발전이 순조롭고 점진적인지 아니면 단계적이고 날카로운 지에 대한 것입니다.예를 들어, 어떤 사람들은 산업 혁명, 신석기 혁명 및 기타 유사한 사건을 경제 발전이 불연속적이고 갑작스럽게 증가한 순간으로 지적하는 반면, 다른 사람들은이를 단지 주변의 지속적인 발전 수준이 마침내 눈에 띄게 된 순간으로 간주합니다.흥미롭게도 인간 경제 역사의 상대적인 부드러움이나 날카로움에 대한 사람들의 견해는 AI 경제로의 전환을 상상하는 방식에 중요한 역할을합니다.일반적으로 경제 성장이 항상 지속적이고 점진적이라고 생각한다면 AI가 단기간에 일상 생활에서 불연속적이고 혁신적인 도약으로 이어질 것이라고 생각할 가능성이 적습니다.
Ben은 AI 위험에 대한 특정 “고전적인”주장에 회의적입니다.그것들을 완전히 무시하지는 않지만, 그는 그들 중 많은 것이 불필요하게 추상적이라고 주장한다.그는 또한 OpenAI의 GPT-3와 같은 점점 더 많은 시스템의 출현으로 우리에게 구체적이고 다소 일반적인 AI 시스템이 실제로 어떻게 작동하는지 볼 수있는 기회를 주었고 그 결과는 AI 위험에 대한 우려가재귀 적으로 자기 개선 시스템특히 단단한 바닥에 있지 않을 수 있습니다.여기서 글 머리 기호 형식으로 이러한 주장을 풀기가 * 정말 * 어렵습니다. 따라서이 측면에 관심이 있다면 에피소드를 듣는 것이 좋습니다.

당신은 할 수 있습니다여기 Twitter에서 Ben을 팔로우하세요.(아직 트윗하지 않았지만 : P) 또는여기 트위터에서 나를 따르라.

팟 캐스트 중에 참조 된 링크 :

Ben의 페이지Future of Humanity Institute 웹 사이트에서

장 :

0:00 소개
1:21 Ben의 배경
3:14 AI의 위험
9:57 돈의 가치
13:38 참여 적 현상으로서의 AI
16:01 AI 및 GDP
27:11 생명의 진화
30:36 AI 리스크 주장
45:23 이러한 시스템 구축
51:29 인간의 자기 개선 피드백
53:54 아이디어의 변화
1:07:38 요약

성적 증명서 아래에서 찾으십시오.

Jeremie (00:00:00) :
안녕하세요, 제레미입니다.Towards Data Science 팟 캐스트에 다시 오신 것을 환영합니다.오늘은 AI와 관련된 장기적이고 개량 된 외모, 반 미래 지향적 인 주제를 많이 다루게 될 것이기 때문에 오늘 에피소드가 정말 기대됩니다.그리고 AI 기술이 거버넌스의 미래를 형성하는 방식입니다.인간이 경제적으로 무의미 해 질까요?우리의 일상적인 결정 중 얼마나 많은 것이 기계에 오프로드 될 것입니까?그리고 아마도 가장 중요한 것은, 매우 유능하고 매우 일반적인 AI 시스템의 출현이 민주주의와 거버넌스 자체의 미래에 무엇을 의미할까요?이러한 질문은 어떤 종류의 확실하게 대답 할 수 없지만, 인간 기술 발전의 역사를 오랫동안 바라 보면 힌트를 얻을 수 있습니다.

Jeremie (00:00:41) :
이것이 바로 제 게스트 인 Ben Garfinkel이 AI의 미래에 대한 연구에 적용한 전략입니다.현재 Ben은 Oxford의 Future of Humanity Institute에서 AI를 포함한 첨단 기술의 위험을 예측하는 여러 분야의 연구원입니다.Ben은 또한 AI 위험에 대한 몇 가지 고전적인 주장을 탐구하는 데 많은 시간을 보냈습니다.이 중 상당수는 팟 캐스트에서 접하게 될 것입니다.우리는 많은 손님들이 그들에 대해 자세히 토론하고 탐구했고 그가 동의하지 않는 많은 사람들을 가졌습니다.그리고 우리는 그의 의견 불일치, 그가 가진 이유, 그리고 AI 위험에 대한 논쟁이 약간 불안정하다고 생각하는 부분을 조사 할 것입니다.대화를 정말 즐겼습니다.당신도 그러길 바랍니다.벤, 팟 캐스트에 함께 해주셔서 감사합니다.

Ben (00:01:19) :
네.저를 초대해 주셔서 감사합니다.

Jeremie (00:01:21) :
당신이 여기에있어 정말 기쁩니다.당신의 초점은 인공 지능과 관련된 많은 장기적인 문제들에 있습니다.하지만 그 고기와 감자에 대해 자세히 알아보기 전에이 공간에 오게 된 이유를 더 잘 이해하고 싶습니다.그렇다면 당신의 배경은 무엇이며 AI에서 장기주의를 어떻게 발견 했습니까?

Ben (00:01:38) :
예, 사실 꽤 원형 인 것 같아요.그래서 대학에서 물리학과 철학을 공부했고 실제로 물리학 철학에 관심이 많았고 대학원에가는 것도 고려하고 있었는데 다행스럽게도 그렇게하지 않았습니다.그리고 저는 철학을 통해 윤리에 대해 더 많이 배우기 시작했고 인구 윤리에 대한 특정 아이디어를 접했습니다.우리가 내리는 결정에서 미래 세대를 어떻게 소중히 여기고 미래 세대에 대한 우리의 의무가 무엇인지에 대해 다른 질문이 있다는 생각.또는 다른 사람들에게 적어도 어느 정도 유용 할 수있는 일을하는 것이 얼마나 강력한 지.그리고이를 통해 장기주의에 점점 더 관심을 갖게되었고 유용 해 보이는 것을 알아 내려고 노력했습니다.그리고 저는 아마도 철학과 물리학이 그렇지 않다고 생각하게되었습니다.

Ben (00:02:28) :
그리고 저는 실제로 이번 무렵뿐만 아니라 장기 주의적이거나 미래적인 주제에 대해 더 자세히 살펴 보려고 노력하면서 우연히 예일대에 있던 교수 인 Allan Dafoe를 만났습니다.그는 그저 AI 거버넌스 문제를 해결하기 위해 노력하고있었습니다.그리고 제가 아직 선배 였을 때 그가 연구 조교를 부른 것 같아요.이 주제에 관심이 있었고 AI 위험에 대해 조금 읽었습니다.예를 들어 Superintelligence라는 책을 읽기 시작했는데 그 분야에 실제로 관여하지는 않았지만 중요한 문제가있는 것 같았습니다.기회가 생겨서 Allan과 함께 일하기 시작했습니다.그리고 몇 년이 지난 지금도 저는 여전히 Allan과 함께 일하고 있으며, 신기술의 위험에 대해 작업하는 것이 장기적인 관점에서 적어도 꽤 좋은 일이라는 것을 상당히 확신하게되었습니다.

Jeremie (00:03:14) :
그리고 이것은 실제로 아름다운 segue입니다. 제가 정말로 이야기하고 싶었던 주요 주제 중 하나라고 생각합니다.그리고 그것은 당신이 AI의 실존 적 위험과 그에 대한 주장에 대해 많은 시간을 보냈다는 생각입니다.그중 많은 부분이 실제로 완전히 팔리지 않았다는 것을 알고 있습니다.여기서 시작할 수 있습니다. 특히 사람들, 특히 앨런과 당신이 AI에 대해 걱정하는 실존 적 위험의 본질은 무엇입니까?그런 다음 우리는 그러한 주장에 대한 반론도 할 수 있습니다.하지만 우선, 그 위험은 무엇입니까?

Ben (00:03:44) :
예, 그래서 저는 AI의 장기적인 영향에 대해 생각하는 사람들의 커뮤니티에서 적어도 정말로 우세한 단일 위험이 있다고 생각하지 않습니다.그래서 저는 몇 가지 주요, 매우 광범위하고 다소 모호한 범주가 있다고 말하고 싶습니다.따라서 매우 빠르게 위험의 한 종류는 불안정성으로 인한 위험입니다.따라서 많은 사람들, 특히 국제 안보 영역에서 예를 들어 치명적인 자율 무기 시스템에 대해 걱정하고 있습니다. 어쩌면 국가 간 갈등의 위험이 증가 할 수도 있습니다.우발적, 플래시 충돌 또는 잠재적으로 AI의 특정 응용 프로그램 일 수 있습니다. 2 차 공격 능력을 이동하고 핵전쟁의 위험을 증가 시킨다고 가정 해 보겠습니다.또는 그들은 큰 권력 경쟁에 대해 걱정합니다.그리고 그들이 가지고있는 주요 관심 벡터는 인공 지능이 국내 적으로나 국제적으로 정치를 불안정하게 만들 것이고, 그 후 지속적인 피해를 입힐 전쟁이있을 수도 있고 다른 부정적이고 긴 갈등이있을 수도 있다는 것입니다.

Ben (00:04:43) :
거기에 덜 초점을 맞춘 또 다른 종류의 우려가 있습니다. 특정한 갈등이나 붕괴 또는 전쟁이라고합시다.그리고 AI가 사회를 재편성하는 방식에 일정 수준의 우발성이있을 수 있다는 생각에 더 집중합니다.따라서 정부와 AI가 미래 세대에 영향을 미치고 계속해서 영향을 미칠지에 대해 사람들이 내리는 특정 결정을 생각할 수 있습니다.그리고 사실, 예를 들어, 민주주의가 얼마나 널리 퍼져 있는지, 권력의 분배가 무엇인지, 또는 사람들이 관심을 갖는 다양한 다른 것들, 예를 들어 나쁜 가치가 어떤 의미에서 확고히 자리 잡는 것과 같은 것들이 있습니다.

Jeremie (00:05:23) :
왜냐하면 그 쪽은 아주, 분명히 복잡한 영역이라고 생각합니다.하지만 사람들이 AI가 미래에 민주주의가 유치 할 수있는 거버넌스 모드라고 말할 수있는 범위를 바꾸는 것을 상상하는 방식은 무엇일까요?

Ben (00:05:36) :
그래서 민주주의에 관해서는 분명히 이것에 대한 약간의 추측적인 우위가 있습니다. 그러나 민주주의에 대해 걱정하는 것에 대한 한 가지 주장은 민주주의가 정말로 정상적이지 않다는 것입니다. 역사의 광범위하고 포괄적 인 관점을 살펴보면, 최초의 문명으로 돌아가는 것은 드문 일이 아닙니다. 매우 매주 민주적 인 요소가 있다고합시다. 그래서 그것은 완전한 독재 정치가 아닙니다. 예를 들어 로마 상원 의원 같은 어떤 종류의기구가 있습니다.하지만 로마의 경우 잘 알려진 것입니다. 그러나 그것은 우리가 지금 가지고있는 것과는 매우 거리가 멉니 다. 이는 매우 반응이 빠른 정부와 더 많은 것을위한 일관된 이적을 가진 많은 국가에서 거의 보편적 인 참정권과 같습니다. 이것은 역사적 관점에서 매우 드뭅니다. 그리고 상황이 완전히 독재 화되지 않았거나 이전에 다가 왔더라도 지난 100 년 동안은 매우 다른 일입니다. 그리고이 현대적인 형태의 민주주의가 왜 더 보편화되었는지에 대한 다양한 이론이 있습니다. RCT를 실행하기가 어렵 기 때문에 이에 대해 많은 논쟁이 있습니다. 그러나 많은 사람들은 산업 혁명을 중심으로 발생하는 적어도 특정한 경제적 변화가 적절하다고 지적합니다.

Ben (00:06:43) :
그래서 사람들이 때때로 제기하는 변화의 한 종류는 Androform입니다. 산업 혁명 이전에는 정말 심각한 문제였습니다.몇 가지 우려 사항은 많은 일반 사람들에게 정부의 권력을 주거나 부유 한 행위자들의 부의 주요 형태 인 토지를 재분배하는 [들리지 않음 00:06:56]을 활용한다면보다 광범위하게 파괴적이어야한다는 것입니다..그리고 그것은 국가들이 산업화되고 토지가 부의 형태로서 덜 관련성이있게되면서 이러한 농지 개혁 문제가 방해 요소가되지 않게되었을 것입니다.당신은 더 이상이 땅 귀족이 아니었고, 이처럼 무뚝뚝한 정책 공포를 가졌습니다.

Ben (00:07:18) :
그리고 또 다른 우려는 노동의 가치가 생산적 증가와 마찬가지로 증가했다는 것입니다.그리고 이것은 사람들에게 모호한 의미에서 더 많은 협상력을주었습니다. 왜냐하면 당신은 그들이 한 일과 더 많은 가치를 가진 전형적인 노동자를 가지고 있기 때문입니다.그리고 그들은 기본적으로 노동력을 제거하겠다고 위협함으로써 더 큰 위협을 만들 수 있습니다.또는 조직도 관련성이 있다고 생각했습니다. 도시에 사람들이 꽉 차면 조직하기가 더 쉽고 실제로 성공적인 혁명을 일으킬 수 있습니다.그리고 사람들이 기본적으로 경제 변화라고 지적하는 다양한 요인이있어 민주주의가 그 길을 따라가는 데 도움이되거나 오늘날 왜 더 널리 퍼져 있는지 적어도 부분적으로 설명하는 데 도움이 될 수 있습니다.

Ben (00:07:52) :
따라서 여러분이 상당히 광범위하게 가질 수있는 한 가지 우려는 민주주의의 보급이 어떤 식 으로든 특정 물질적 또는 경제적 요인에 달려 있는지 여부입니다.그렇다면 그것은 지난 몇 100 년 동안 만 유지되었습니다.이것은 정상이 아닐 수도 있습니다. 경제 및 기술 변수를 많이 변경하면 유지되지 않을 수도 있습니다.여기에 좀 더 구체적인 주장이 있습니다.그래서 한 가지 매우 구체적인 주장은 단지 인간 노동의 가치가 매우 낮아지면 대부분의 경우에는 0이된다는 것입니다. 왜냐하면 노동 대신 자본을 대체 할 수 있기 때문입니다.AI 시스템은 사람들이 할 수있는 모든 것을 할 수 있기 때문에, 아마도 우리가 노동자의 힘을 줄일 때, 당신이 법 집행을 자동화 할 수 있거나 군사 기술도 자동화 될 수 있기 때문에 봉기를 억제 할 수 있다면.

Ben (00:08:33) :
아마도 그것은 권위주의 정부를 더 안정되게 만들 것입니다.봉기에 대한 두려움 때문에 양보조차하지 않는다는 뜻입니다.노동의 가치가 0이되면 그 시점에서 누가 자본을 소유하는지 또는 누가 기계를 기본적으로 소유하는지에 따라 크게 달라질 수 있습니다.그리고 그것은 농지 개혁에 대한 사소한 우려와 매우 유사한 상황 인 시스템을 만들 수도 있습니다.부가 이러한 더 모호한 것들에 기반하지 않은 곳에서 사람들의 노동을 나누고 실제로 역할을하지 않았습니다. 그것은 주로 여러분이 소유하고있는 것이 기본적으로 임대료를 징수하는 것입니다.그 체제로 돌아 오면 민주주의의 안정에도 좋지 않을 수 있습니다.

Ben (00:09:09) :
그래서 외부 관점이 있습니다. 이것은 단지 드문 일입니다.우리는 그것이 지속될 것으로 기 대해서는 안되며 많이 바뀝니다.그리고 권위주의 정부를 더 안정되게 만들고 사람들이 [들리지 않음 00:09:24]에 권력을주는 것에 대해 더 걱정하게 만드는 내부 관점의 주장이 더 있습니다.

Jeremie (00:09:24) :
이러한 모든 문제가 얼마나 얽혀 있는지 그리고 이러한 모든 변화가 일어날 때 미래가 어떻게 보일지에 대한 일관된 비전을 표현하는 것이 얼마나 어려운지 정말 흥미 롭습니다.민주주의에서 일어날 일, 경제에서 일어날 일에 대해 이야기하기 시작할 때 저에게 계속 떠오르는 것 중 하나입니다.그리고 협상하는 노동의 힘은 우리가 모든 종류의 시장 구조를 가지고 있다는 기본 가정입니다.

Jeremie (00:09:57) :
그 중 하나는 제가 가질 수있는 거의 어리석은 질문은 그 맥락에서 돈의 가치가 무엇일까요?가격 발견의 가치는 무엇입니까?그러한 맥락에서 가격 발견은 어떻게 발생합니까?그리고 재분배가 의미하는 바는 … 우리가 반드시 희소성 이후 상황에있는 것이 아니라 희소성의 변화를 기대할 수 있습니다.하지만 어쨌든, 제가 여기서 말하고자하는 것이 무엇인지 확신 할 수 없습니다.하지만 당신이 거기에 던져 넣을 것이있는 것 같습니다.

Ben (00:10:23) :
그래서 저는 이것이 정말 심각한 문제라고 생각합니다. 나는 우리가 실제로 어떤 수준의 세부 사항에서도 매우 진보 된 AI로 미래를 상상할 수 있고 실제로 옳을 것이라고 기 대해서는 안된다고 생각합니다. 그래서 제가 가끔 사용한 비유는 AI 시스템이 최소한 사람들이 할 수있는 모든 일을 할 수있는 세상의 특정 측면이 있다고 생각한다는 것입니다. 우리는 추상적으로 어느 정도 추론 할 수 있습니다. 우리는 이러한 경제 모델을 가지고 있고, 우리는 노동을 가지고 있고 여러분은 자본을 가지고 있습니다. 그리고 여러분은 노동 대신 자본을 대체 할 수 있다면 어떤 일이 일어나는지 물어볼 수 있습니다. 그리고 프로젝트조차도 매우 추상적 인 관점입니다. 그리고 우리가 세부 사항을 알지 못하더라도 이러한 이론이 충분히 추상적이기를 바라는 이유가있을 수 있습니다. 우리가 미래에 대해 추론하기 위해 여전히 사용할 수있는 충분한 일반 초록이 있다고 생각할 이유가 있습니다. 하지만 정부가 일하는 방식을 구체적으로 설명하는 것과 같은 우려가 있습니다. 우리는 아마도 정부의 기능이 아주 잘못되었다고 상상할 것입니다.

Ben (00:11:19) :
그래서 제가 가끔 사용한 비유 중 하나는 당신이 1500이라고 말하고 누군가가 당신에게 인터넷을 매우 추상적 인 용어로 설명한다고 가정 해 봅시다. 마치 의사 소통이 훨씬 빨라질 것입니다.정보를 검색하고 학습하는 것이 훨씬 빠릅니다.그리고 그것은 당신에게 그것의 추상적 인 속성의 일부를 제공합니다.추론 할 수있는 몇 가지 사항이 있습니다.

Ben (00:11:40) :
예를 들어,“오, 사람들이 해외에 있고 연락이없는 것과는 달리 사람들과 더 빨리 소통 할 수 있기 때문에 자율성이 떨어질 수 있습니다.또는 이러한 조정 비용이 줄어들 것이기 때문에 비즈니스가 더 커질 수 있습니다. “그에 대해 말할 수있는 내용이 실제로 사실 일 수도 있고 “아마 사람들이 원격으로 일할 수도 있습니다.”라고 말할 수 있는데 세부 사항에 대해 많이 알지 못할 수도 있습니다.하지만 무슨 일이 일어나고 있는지 정말 구체적으로 알아 보려고한다면 아마도 완전히 완전히 틀렸다고 상상할 것입니다.컴퓨터가 실제로 어떤 것인지, 사람들이 컴퓨터와 상호 작용하는 방식에 대해 잘 모르기 때문입니다.

Ben (00:12:15) :
Reddit 및 GameStop 주식이라는 수준의 세부 정보를 얻지 못할 것입니다.이러한 모든 문제가 있으며, 세부 수준에서 예측할 수있는 가능성은 없습니다.그리고 어떻게 든 잘 맞지 않는 추상화를 사용하고 있기 때문에 실제로 적용되지 않을 것이라고 상상할 수있는 많은 문제가 있습니다.그래서 이것은 다소 긴 바람의 말입니다. 저는 우리가 충분히 추상적 인 추론의 이론과 방법을 가지고 있다고 생각하며 적어도 조금은 유지하기를 기대합니다.하지만 우리가 예측할 수없는 것들이 많이 있다고 생각합니다.우리가 정말로 말할 수없는 많은 문제.그리고 오늘 우리가 말하는 많은 것들은 아마도 미래의 관점에서 어리석게 될 것입니다.

Jeremie (00:12:51) :
예,“이번에는 다를 것입니다.”라는 말은 언제나 위험한 말이라고 생각합니다.그러나 AI 혁명의 다음 단계에 관해서는 그렇게 부르고 싶다면.나는 그것이 당신이 사용하는 경향이있는 언어라는 것을 알고 있으며,이 경우에 적절한 것 같습니다.제가 궁금해하는 것 중 하나는 시장과 같은 것을 정의하기 위해 우리가 의존하는 추상화가있는 추상화 유출과 거의 비슷합니다.이것은 우리가 미래를 예측하는 것에 대해 이야기 할 때 우리 추론의 가장 기본적인 요소 중 하나입니다.궁극적으로 가격은 개별 인간이 물건에 대해 기꺼이 지불하는 것이기 때문에 시장은 암묵적으로 사람을 중심으로 회전합니다.시장 참여자가 될 수있는 것에 대한 우리의 정의를 넓히는 범위까지.

Jeremie (00:13:38) :
그리고 여기서 우리는 AI 에이전트를 어떻게 고려할까요?어느 시점에서 사회 참여 구성원입니까?그리고 어떤 시점에서 가격 발견이 실제로 인간이 아닌 시스템과 같은 것들의 요구와 욕구를 중심으로 진행됩니까?이것이 제가 궁금해하기 시작하는 곳이라고 생각합니다. 이것은 기본적으로 비 구조적 관점입니다.그래서“시장은 잘못된 추상화”라고 말하는 것은 도움이되지 않지만 그게 심각하다고 생각하는 문제입니까?

Ben (00:14:06) :
예, 그렇습니다. 저는 확실히 문제가 있다고 생각합니다. 당신이 좋은 구체적인 문제를 지적했다고 생각합니다. 우리는 이렇게 확고한 차이가 있습니다. 사람들은 현재 기계와 소프트웨어와는 매우 다릅니다.그것은 경제 행위자들과 경제에 관한 것들과 매우 비슷합니다 [들리지 않음 00:14:23].그리고 어떤면에서는 사람과 비슷한 [들리지 않음 00:14:29] 어떤 목적으로 기업이 어느 정도 흐릿 해집니다.그러나 그 구별은 상당히 강력합니다.자본과 노동 사이에서도 현재로서는 모호하지 않습니다.

Ben (00:14:41) :
그러나 매우 광범위하고 부드러운 AI 시스템이 미래에 존재할 것이라고 생각한다면.우리는 사람들이 자신의 가치를 추구하기위한 평가를 생성하는 AI 시스템과 흥미로운 관계를 가질 수 있다고 생각합니다.우리가 그리는 많은 구별이 실제로 오늘날보다 훨씬 더 모호해질 수 있다고 생각합니다.그리고 그것들이 미래에 모호 해지는 방식은 우리가하는 어떤 이유 든 정말 뚜렷한 구별에 의존하는 이유가 현재 예측하기 어려운 방식으로 실패하게 만들 수 있습니다.

Jeremie (00:15:12) :
네.정말 예측할 수없고 근본적으로 도전 적이기 때문에 예측하는 것은 흥미로운 위험입니다.그것은 거기에서도 문제 중 하나 인 것 같습니다. 그리고 여러분은 실제로 기술의 역사에 대한 여러분의 작업에서 이것을 탐구합니다.이 기술의 진화에 대한 이야기를 전달하기 위해 어떤 측정 항목을 살펴볼 것인지입니다.그것에 대해 조금 말씀해 주시겠습니까, 귀하의 역사적 전망 및 흥미 롭다고 생각하는 지표는 무엇이며 미래에 관련성이 있거나 관련이없는 이유는 무엇입니까?

Ben (00:15:36) :
네.그래서 저는 사람들이 매우 자주 접근하는 하나의 측정 항목이 글로벌 세계 제품 또는 GDP라고 생각합니다.GDP는 측정 기준으로 흥미 롭습니다. 측정하려는 것은 기본적으로 어느 정도 생산 능력 (예 : 얼마나 많은 물건을 생산할 수 있는지 또는 사람들이 가치있는 물건을 생산할 수있는 물건)과 같은 어느 정도의 생산 능력이기 때문입니다.과-

Jeremie (00:16:01) :
어리석은 질문이 있습니다.그렇다면 GDP는 무엇입니까?GDP의 실제 정의는 무엇입니까?

Ben (00:16:08) :
따라서 최소한 명목 GDP에서는 경제 내에서 판매되는 모든 최종 제품의 총 가격을 합산합니다.따라서 최종 제품은 기본적으로 최종 결과와 같은 것입니다.누군가 나사를 팔면 나사를 사용하여 천장 선풍기 같은 것을 만드는 사람에게 나사를 판매합니다.나사는 두 번 계산하기 때문에 계산되지 않습니다.누군가가 천장 형 선풍기를 구입하고 천장 형 선풍기를 구입할 때 나사를 구입하면 나사도 구입하는 것입니다.따라서 기본적으로 중간 제품을 제외한 경제 내에서 구매하거나 판매하는 모든 제품의 기본 판매 가격을 합산하는 것입니다.

Ben (00:16:48) :
그러나 사람들은 종종 명목 GDP와 다른 실질 GDP에 대해 이야기하고 싶어합니다.따라서 명목 GDP는 기본적으로 모든 가격을 더합니다.명목 GDP의 한 가지 문제는 인플레이션이 발생하면 실제 기초 주식과 관련이없는 이유로 명목 GDP가 증가 할 수 있다는 것입니다.그래서 정부는 더 많은 돈을 인쇄하기로 결정합니다. 갑자기 모든 가격이 1,000 배씩 올라가지 만 여러분은 여전히 똑같은 것을 가지고 있습니다.명목상의 의미에서 GDP 성장률이 극도로 빠르다고 느끼지는 않지만 실제로 더 많은 것을 생산하고 있다는 것을 알려주지는 않습니다.

Jeremie (00:17:25) :
네.베네수엘라는 잘하고 있습니다.

Ben (00:17:27) :
예 바로 그 거예요. 실질 GDP는이를 조정하기위한 것입니다. 그리고 적어도 그것이 작동하는 방식을 대략적으로 말하면 과거에 특정 시점에 존재했던 가격과 관련된 모든 것을 정의하려고 노력하는 것입니다. 경제가 존재한다고 가정 해 봅시다. 판매되는 유일한 제품은 버터이고 버터 가격은 인플레이션으로 인해 어떤 이유로 인해 1,000 배 상승합니다. 그러나 경제에서 판매하는 버터의 양은 두 배에 불과합니다. 실질 GDP는“오, 당신이 판매 한 버터의 양이 2 배 증가했기 때문입니다. 경제 규모는 2 배만 증가했습니다.” 그리고 경제의 규모는 과거의 버터 가격에 오늘날 존재하는 단위 수를 곱한 것으로 정의됩니다. 이것이 실질 GDP입니다. 사람들이 시간이 지남에 따라 새로운 제품을 계속 소개하기 때문에 매우 복잡해집니다. 그렇다면 사람들이 2020 년에 구매하는 대부분의 물건이 1700 년에 존재하지 않았다는 점을 감안할 때 2020 년 경제의 실질 GDP를 1700 년대 경제와 어떻게 비교합니까? 실제로 어떻게 비교합니까? 사람들이 사용하는 다양한 방법이 있지만 제대로 이해하지 못합니다.

Ben (00:18:36) :
하지만 그 질문을하면서 GDP의 주요 문제 중 하나에 도달했습니다.그것은 우리가 기본적으로 얼마나 많은 것을 만드는가와 같은 사회의 생산 능력을 추적하기위한 것입니다.단기간에 실질 GDP를 사용하는 경우 일반적으로 그렇게 많은 신제품을 도입하지 않기 때문에 상당히 문제가 없어 보입니다.그러나 오랜 시간이지나면서 이러한 비교가 실제로 어떻게 작동하는지 모호해집니다.그래서 매우 무딘 비교는 여전히 꽤 괜찮습니다.따라서 BC 10,000 년과 현재의 1 인당 GDP처럼 말할 수 있습니다.다른 100 개 사회의 1 인당 GDP를 정확히 어떻게 정의해야할지 몰라도 여전히 낮다고 확신합니다.

Ben (00:19:21) :
그래서 어떤 의미에서는 무뚝뚝한 도구와 같습니다. 그 유용성은 실제로 토론이나 예측을 얼마나 정확하게하고 싶은지에 달려 있다고 생각합니다.따라서 누군가가 자동화로 인해 1 인당 GDP 성장률이 10 배 증가 할 것이라는 매우 대담한 예측을한다고 가정 해 보겠습니다.누군가 그렇게 대담한 예측을한다면, 어떤 미친 미래 경제에서 실질 GDP가 의미하는 바가 약간 모호합니다.하지만 조금 애매하게 보아도 GDP의 차이 인 성장률은 변하지 않았고 10 배 증가한 성장률은 여전히 충분히 무딘 것입니다.주장을 표현하는 유용한 방법입니다.

Ben (00:19:57) :
그래서 그것은 긴 바람의 말입니다. 제 생각에 GDP 또는 1 인당 GDP는 생산 능력이 얼마나 빨리 증가하는지에 대한 대리 물로서 꽤 좋은 경우가 많습니다.산업 혁명과 같은 일에 유용합니다. 1 인당 GDP로 명확하게 나타납니다.또는 미개발 국가가 발전하지 않는 것처럼 국가가 정말로 정체 된 것처럼 보일 때 1 인당 GDP는 일반적으로 꽤 평평합니다.예를 들어, 중국이 정말 명백한 질적 의미로 도약하기 시작했을 때 1 인당 GDP는 그것을 꽤 잘 추적했습니다.그래서 유용하지만 다양한 문제가 있습니다.그리고 그 밖의 문제도 있습니다. 종종 사람들은 1 인당 GDP와 같은 사람들의 삶이 얼마나 좋은지에 대한 대리 물로 사용하기를 원합니다.

Ben (00:20:38) :
하지만 일반적으로 고려되지 않는 다양한 것들이 있습니다. 의료의 질은 직접적으로 고려되지 않고 대기 오염도 고려되지 않습니다.모든 사람이 매우 우울하거나 마취를했다면 개발중인 마취의 가치는 실제로 나타나지 않습니다.조명의 품질 향상, 전구가 양초보다 훨씬 낫다는 사실을 보여주는 William Nordhaus의 고전적인 논문이 있습니다. 100 년 이상 전에는 실제로 나타나지 않습니다.따라서 최소한 조잡한 척도로서 동일한 재정적 문제를 말하는 장황한 방식입니다. 꽤 좋습니다.하지만 웰빙 및 기타 관심있는 일에 도움이 될 수있는 것만 큼 실제로 상관 관계가있는 것은 아닙니다.

Jeremie (00:21:15) :
마지막 작품에 태그를 달았을 때 웰빙과 잘 관련되지 않는다는 것이 흥미 롭습니다.정렬 문제에 대한 더 나은 캡슐화를 생각할 수 없습니다.기본적으로 측정 항목을 만드는 문제는 여기에 우리가 원하는 것입니다.인간은 정말 나쁘거나 우리가 나쁘다는 것이 아닙니다.말이되는 메트릭을 지정하는 것은 정말 어려운 문제 일 수 있습니다.그리고 당신은 주식 시장이 무엇인지 보시고, 우리는이 하나의 메트릭에 고정하기로 결정했습니다.그리고 한동안 주식 시장은 일반적으로 경제가 어떻습니까? 일반인은 어떻습니까?그러나 그 다음에는 분리가 일어나고 우리는 일반인의 삶에 비해 매우 다른 주식 시장으로 끝납니다.어쨌든 죄송합니다.맞대 겠다는 뜻은 아니었지만 당신은

벤 (00:22:00) :
네.그래서 저는 약간의주의를 기울여야합니다. 현재로서는 GDP가 실제로 측정 기준으로 꽤 좋다고 생각합니다.기대 수명이나 삶의 만족도와 같이 관심있는 것을 자주 정의하는 경우.실제로 현재는 매우 강력한 상관 관계가 있습니다.그리고 저는 여러분이 아무것도 몰랐다고 생각합니다. [들리지 않음 00:22:17] 뒤쳐져 있거나 살 국가를 선택해야합니다. 그리고 여러분이 얻는 유일한 것은 당 GDP입니다.capita.이것은 종종 유용한 정보가 될 것입니다.내 생각은 정렬 문제와 더 일치한다고 생각합니다. 앞으로 더 분리 되어도 놀라지 않을 것입니다.

Ben (00:22:30) :
특히 우리가 결국 노동을 자본과 기계로 완전히 대체했고 사람들이 더 이상 임금을 위해 일하지 않는다고 가정 해 보겠습니다.그리고 경제 성장은 대부분 다른 기계를 만드는 기계이고 작업자는 실제로 관여하지 않습니다.경제가 10 배 증가해도 사람의 생명은 10 배 증가하지 않는다고해서 놀라지 않을 것입니다.

Jeremie (00:22:47) :
네.그것도 흥미롭고 무엇에 대한 의문을 불러 일으키는데, 이것은 GDP의 큰 측면 인 가격 발견으로 돌아갑니다.상황이 복잡 해지는 영역이 너무 많습니다.하지만 흥미로운 것은이 역사적인 기술 탐구에 대해 여러분이 모은 작업 중 일부를 보는 것입니다.이러한 메트릭의 대부분은 실제로 상관 관계가 있습니다.어느 정도는 측정하는 것이 중요하지 않습니다. 지난 2000 년 또는 지난 20,000 년 동안 극적인 일이 일어났습니다.그러나 문화 혁명, 신석기 혁명, 산업 혁명 중 하나를 측정하고 싶습니다.그리고 그것은 마치 인간의 초 유기체, 지구상의 모든 인간은 일종의 최적 또는 국소 최적 또는 그 무엇이든에 매겨진 최적화 알고리즘과 같습니다.그리고 우리는 이제 그 기울기를 정말 가파르게 오르고 있습니다.

Jeremie (00:23:44) :
AI가 그것의 연속적인 한계라고 생각하십니까?그것은 자연스러운 다음 단계와 같습니까?아니면 우리는 그것을 단계 함수와 같은 양자 도약으로 생각해야합니까?

Ben (00:23:56) :
네.정말 좋은 질문이라고 생각합니다.그리고 저는 이것이 경제 성장의 역사나 증가 된 사회적 역량을 정확히 해석하는 방법에 대한 논쟁이라고 생각합니다.또는 어떤 종류의 모호한 용어를 사용하여 사람들이 물건을 만들거나 물건을 바꾸거나 세상에서 물건을 처리하는 능력을 설명 할 때 사용하고 싶은 용어입니다.예를 들어 산업 혁명에 대한 다양한 해석 사이에 실제로 존재하는 논쟁이 있습니다.따라서 영국과 일부 주변 국가에서 대략 1750 년에서 1850 년 사이에 발생한 산업 혁명에 대한 한 가지 해석은 산업 혁명까지 성장이 매우 정체되었다는 것입니다.그리고 나서 약간의 변화가있었습니다. 어떤 흥미로운 피벗이 일어 났을 수도 있고, 아마도 산업 혁명의 반대편에 또 다른 세기가 될 수도 있습니다.어떤 이유로 기술 진보의 속도가 빨라진 곳.

Ben (00:24:55) :
그리고 사람들은 농업 기반 경제에서 산업 경제로 전환했습니다.그리고 사람들은 비 유기농 에너지 원을 사용하기 시작했습니다.그래서 더 이상 나무 나 동물 비료가 아닙니다.이제는 화석 연료와 전기 등으로 전달되는 에너지입니다.그리고 R & amp; D는 이제 경제 성장에 중요한 역할을하고 있습니다. 이전에는 그렇지 않았습니다.몇 가지 흥미로운 단계 전환이나 몇 백년 동안 일어난 일이 있습니다.우리는 단지 한 경제에서 더 빠르게 성장하고 변화 할 수있는 질적으로 다른 경제처럼 전환했습니다.

Ben (00:25:29) :
이제 기본적으로 인간 문명의 역사에 걸쳐서 성장 속도가 점점 빨라지고 있다는 장기적인 추세가 있다는 또 다른 해석이 있습니다.그리고이 해석은 경제의 전반적인 규모가 증가함에 따라 성장률 자체가 성장률 자체가 계속 증가하고 있다는 것을 말합니다.그리고 경제 규모가 계속 커지고 성장률이 계속 커지고 산업 혁명에서 눈에 띄게 폭발 한이 흥미로운 피드백 루프입니다.사람들이 이것을 알아 차릴 수있을만큼 속도가 마침내 빨라진 곳이기 때문에 사실 꽤 일관된 트렌드가있었습니다.실제로 위상 전환이 아니 었습니다.

Ben (00:26:12) :
예를 들어 열린 자선 프로젝트에서 일하는 경제학자 인 David Roodman의 최근 작업이 있습니다.이 지속적인 관점을 주장하거나 탐구하는 인간의 궤도를 모델링 한 그가 쓴 최근 보고서가 있습니다.경제사에서도 논쟁이 있습니다.경제학자 인 Michael Kramer가이 부드러운 가속화 관점과 많은 경제 역사가를 주장했습니다.사실 한 경제에서 다른 경제로 전환하는 데 이상한 점이 있습니다.

Ben (00:26:42) :
나는 단지 경쟁적인 해석이 있다고 말할 것입니다.그래서 누군가는 가끔씩 이렇게 말합니다. 조금 이상하고 약간 특이합니다.어떤 일이 일어나고 약간 불연속적인 변화가 있습니다.그리고 우리는 더 빨리 성장할 수있는 새로운 경제로 전환했습니다.또 다른 해석은 아닙니다. 실제로 이것은 꽤 일관된 숲입니다.상황이 계속 빨라지고 빨라집니다. 위상 전환이 아니고 불연속이 아닙니다. 세상이 점점 더 빠르게 가속하는 매끄럽고 정말 장기적인 추세가있을뿐입니다.

Jeremie (00:27:11) :
이것이 두 개의 다른 하위 문제처럼 얽히는 방식은 흥미 롭습니다.그중 하나는 인간이 거의 지속적으로 학습 하는가?즉, 동굴 사람들이 세대를 거듭하면서 실제로 점점 더 많은 기술을 습득하고있는 경우인데, 그것은 당신이 1 만년 이상을보아야 만 명백해지는 것입니다.아니면 기본적으로 정체되어 있고 모든 것이 진정으로 평평 해지면 이륙 할 수 있습니다.계속 축소하고 계속 축소하면 더 깊은 질문의 일부로 볼 수있는 것처럼 느껴집니다.더 이상 AI가 장악하고있는 미래 경제를 향해 반복되는 인류의 이야기가 아닙니다.그러나 오히려 완전히 생물 적 문제와 빅뱅에서 벗어나 순전히 가치 창출이 전혀 없습니다.

Jeremie (00:28:01) :
나는 그것이 삶이 진화하는 첫 순간 인 단계적 기능이어야한다고 생각한다.이것이 제가 궁금한 부분입니다. 그 관점은 제가 착각하지 않는 한 양자 도약 각도 또는 계단 함수 접근 방식을 더 많이 주장하는 것처럼 보입니다.

Ben (00:28:15) :
네.그래서 저는 그것이 옳다고 생각합니다.분명히 적어도 직관적으로 역사에는 뭔가 다른 일이 일어나는 것처럼 보이는 특정 전환이 있습니다.따라서 생명체로 인정받을 수있는 최초의 자기 복제는 어떤 의미에서 상당히 분리 된 경계와 같아야합니다.또는 그런 것들은 정말 진화의 역사를 모릅니다.하지만 먼저 미토콘드리아 같은 것을 수행하는 것이 세포의 일부가 된 것 같습니다.이것은 상당히 별개의 사건입니다. 저는 유기체 중 하나가 다른 유기체보다 작아서 [들리지 않음] [들리지 않음] 생명체의 전체 진핵 생물이 그로부터 진화했다고 믿습니다.그리고 그로부터 떨어지는 사람들과 같은 다양한 흥미로운 것들이 있습니다. 그것은 또한 직관적으로 제가 정확히 알지 못하는 불연속적인 변화처럼 보입니다.

Ben (00:29:06) :
그래서 직관적으로 어떤 것들이있는 것 같습니다.그리고 또 다른 하나는 사람들이 큰 방식으로 농업을 시작했던 산업 혁명에도 있습니다.일반적인 생각은 이것이 역사적 의미에서 실제로 상당히 빠르거나 인간으로서 자격이 될 수있는 것들이 수천 년 동안 수십 년 동안 존재 해왔다는 것입니다.그리고 아마도 서아시아와 그 이후의 다른 대륙들과 같은 수천 년 동안 사람들은 앉아있는 농업 문명으로 전환했습니다.

Ben (00:29:35) :
대략 10 만년 동안 거대한 빙하기 같았고 빙하기가 끝났다고 생각합니다. 그리고 기후가 바뀌었고 실제로 좌식 농업으로 전환하는 사람들에게 어떤면에서 더 유리 해졌습니다. 그리고 그것은 매우, 상당히 빠르게 일어났습니다. 그래서 네, 제가 개인적으로 그들에 대해 많이 알지 못한다면 적어도 그것이 정말로 느껴지는 역사적 사례가 있다고 생각합니다. 그것은 불연속적인 변화처럼 느껴집니다. 그리고 나는 또한 AI의 경우 어느 정도 그럴 것이라고 생각합니다. 내일 일어나면 안 될 것 같아요. 그러나 우리가 결국 완전 자동화에 도달하거나 AI로 인해 성장률이 다시 증가한다면 생각합니다. 사람들은 아마도 그것을 1950 년 이후로 존재해온 경제 동향의 안정된 지속으로 보지 않을 것입니다. 지금 우리는 매우 꾸준한 경제 성장률을 가지고 있고 꽤 안정적인 자동화 속도를 가지고 있습니다. 그리고 성장률이 미치게되면 사람들은 어떤 변곡점이나 피벗 점 또는 어떤 전환점이 관련된 것처럼 느낄 것이라고 생각합니다.

Jeremie (00:30:36) :
그것은 실제로 제가 정말로 논의하고 싶은 두 번째 영역에 대해 상상할 수있는 전환점만큼 좋은 전환점입니다. 이것이 바로 AI 안전에 대한 여러분의 견해입니다. AI 안전이 반드시 필요한 것은 아닙니다. AI 위험과이 아이디어라고합시다.AI 기반 세계로의 순조로운 전환, 또는 일종의 이상화 또는 실존 적으로 치명적인 시나리오로의 매우 갑작스러운 전환이라고 가정 해 봅시다.그래서 이것에 대한 견해가 있습니까?아마 나는 그것으로 일을 시작할 것입니다.그렇다면 AI 위험 주장이 강하다고 생각하는 부분과 실패한 부분에 대해 생각할 수 있습니까?

Ben (00:31:14) :
네.그래서 저는 처음에 연속성 질문이나 적어도 연속성 질문과의 관련성에 대해 조금만 말할 수 있다고 생각합니다.여러분이 언급했듯이, 이것은 또한 사람들이 AI에 대해 가지고있는 논쟁입니다. 얼마나 갑작 스러울 것인지 … AI 시스템이 기본적으로 인간의 노동을 쓸모 없게 만들고 모든 종류의 다른 미친 짓을 할 수있는 세상에 도달했다고 가정 해 봅시다.얼마나 갑작스러운 전환이 될까요?수십 년의 기간이고 점진적으로 전 세계에 퍼져 나가는 점진적인 산업 혁명의 비유와 같은 것일까 요?

Ben (00:31:48) :
화석 연료를 사용하지 않는 사람들이 화석 연료를 사용하지 않는 것 같은 것조차도 매우 긴 전환이라고 생각합니다.그런 경우와 더 비슷할까요, 아니면 훨씬 더 갑작스럽게 느껴질까요?예를 들어, 우리가 기본적으로 정상적인 상태에서 지금은 모든 것이 AI이거나 심지어 2 년 미만인 2 년의 기간과 같은 시점이 있을까요?그리고 이것은 때때로 장기 주의자 나 미래 주의자에서 일어나는 논쟁입니다 [들리지 않음 00:32:15].그리고 어떤면에서는 위험을 증가 시키거나 결국 감소시키는 어떤면에서 관련이있는 것 같습니다.

Ben (00:32:24) :
따라서 위험 증가 측면에서 갑작 스럽거나 매우 빠른 변화가 의미하는 한 가지는 갑자기 발생할 수 있다는 것입니다. 그래서 그것은 매우 연속적입니다. 여러분은 미리 많은 일들이 일어나고있는 것을 볼 수 있습니다. 정말 갑작 스럽거나 2 년이 걸리는 과정이라면 원칙적으로 지금부터 2 년이 지나면 우리는 아주 다른 세상에서 살 수 있습니다. 또한 준비 할 시간과 중간 수준의 차이에 익숙해지고 시행 착오 학습을 수행하고 위험이 무엇인지 파악할 시간이 줄어 듭니다. 위험이 아닌 것. 우리가 이것을 이야기하고 문제를 찾고 익숙해지는 방법을보고 중간 해결책을 제시하고 실수로부터 배울 수있는 기회를 깨닫는다면. 그리고 이것에 대한 가장 큰 위험은 아마도 마지막 주요 위험 범주 인 잘못 정렬 된 AI와 관련된 위험과 관련이 있다고 생각합니다. 그리고 이것들은 또한 약간 다양하며 팟 캐스트에서 이전 사람들이 그들에 대해 이야기 한 적이 있다고 생각합니다.

Ben (00:33:21) :
그러나 많은 우려는 기본적으로 우리가 앞으로 개발할 많은 AI 시스템이 마치 특정 목표를 추구하는 것처럼 어느 정도 작동 할 것이라는 점으로 요약됩니다.또는 세상에 대한 특정 사항을 극대화하려고합니다.[들리지 않음 00:33:35] 시스템이 형사 사법 관점에서 범죄율에 대한 예측을한다는 점에서 어떤 의미에서는 예측 정확도를 높이려고하는 것입니다.그리고 관심은 AI 시스템이 어떤 의미에서 멀어지고 사람들이 갖는 경향이 있고 이것이 비참한 결과를 초래할 것이라는 목표가 있다는 것입니다.우리는 사람들이 원하는 것과 다른 일을하면서 어떤 목표를 달성하는 데 아주 영리하고 아주 좋은 AI 시스템을 가지고 있습니다.

Ben (00:34:12) :
속도는 이것과 정말 관련이 있습니다. 이것이 누군가의 만연한 문제가 될 것이라고 생각한다면 AI 시스템을 만들고 배포하기 때문입니다.그리고 사람들이 가지고있는 목표와 목표 사이에는 일종의 차이가 있습니다. 이것은 해를 끼칩니다.전 세계에서 더 크고 더 큰 역할을하는 AI 시스템으로의 전환이 계속 진행되고 있다면이 문제의 덜 치명적인 버전을 알거나 작동하거나 작동하지 않는 것을 배우는 데는 시간이 많이 걸릴 것입니다.모든 사람이 점진 성과 시행 착오만으로 문제를 완전히 해결할 수 있다고 확신하는 것은 아닙니다.그러나 실제로 더 많은 사소한 버전의 우려 사항을 확인하고 사소한 경우에 작동하는 솔루션을 찾는 것이 도움이되는 것 같습니다.항상 이런 일은 매우 갑작 스럽습니다. 우리가 내일 깨어 나면 원칙적으로 인간의 노동력을 완전히 대체하고 정부를 운영하고 무엇이든 할 수있는 AI 시스템이 있습니다.

Ben (00:34:59) :
어떤 이유로 든 사용하기로 결정하면.그리고 그들은 어떤 중요한면에서 우리와 다른 목표를 가지고 있었는데, 이것은 아마도 훨씬 더 걱정스럽고 우리는 다가오는 문제를 보지 못할 수도 있습니다.네.그래서 저는 당신의 질문에 이것이 왜 주요 관심사가 아닐 수있는 이유는 무엇입니까? 아니면 어떤 식 으로든 관심사가되는 일련의 주장은 무엇입니까?

Jeremie (00:35:21) :
글쎄요, 사실 짐을 푸는 데 많은 시간이 걸렸다는 더 구체적인 우려가 있다고 생각합니다.그리고 이것은 Nick Bostrom이 그의 책 Superintelligence에서 주장하는 논쟁에 대한 관심입니다.간단히 요약하자면 여기에 티업을하겠습니다. 아이디어는 제가 이것을 도살 할 것입니다. 제가 도살하는 다양한 방법을 자유롭게 강조해주세요.하지만 아이디어는 우리가 AI 팀을 가정한다면 OpenAI와 DeepMind와 그 밖의 모든 것이 점차적으로 반복되고 반복되고 반복되는 것과 같습니다.언젠가 그들 중 하나는 통찰력이나 구매, 전체적인 컴퓨팅 또는 전체 데이터에 대한 액세스 권한을 갖습니다.그것은 시스템을 한심하고 작은 GPT-3에서 이제 갑작스런 인간 수준 이상으로 향상시키는 데 필요한 유일한 것입니다.

Jeremie (00:36:06) :
그 시스템은 인간 수준 이상이기 때문에 인간이 AI 시스템을 개선하는 방법을 알고 있기 때문에 스스로 개선하는 방법을 알 수 있습니다.그래서 아마도 스스로를 개선하는 방법을 알아 내고 루프가 매우 빡빡하므로 AI가 스스로를 개선 할 수 있기 때문에 재귀 루프를 얻을 수 있습니다.그리고 결국 그것은 너무 똑똑해서 압도 할 수 있습니다. 지능을 가진 포획 자들이 세상을 장악하고 완전히 비참한 결과로 이어질 수 있다고합시다.적어도 대략적으로 맞습니까?

Ben (00:36:30) :
네.그래서 나는 그것이 기본적으로 대략 옳다고 생각합니다.네.그래서 생각하는 한 가지 방법은 이러한 정렬 문제의 스펙트럼이 있다고 생각합니다.그리고 그들 중 일부는 시간이 지남에 따라 점진적으로 많은 AI 시스템을 만들고 목표가 우리와 다르며 미래와 그런 종류의 통제력을 점차적으로 상실하는 미래의 모호한 관점에 있습니다.그리고 훨씬 더 극단적 인 곳은 하나의 AI 시스템이 있고 아주 갑자기 도착하는 것과 같습니다.그리고 그것은 어떤 의미에서 광범위하게 초 지능이며 실제로 중요한 전례가 없습니다.그리고 그 시스템은 개별적으로 매우 빠르게 세계에 혼란을 야기합니다.이 하나의 매우 파괴적인 시스템으로 크게 도약하는 것처럼 확실히 우려되는 버전입니다.Nick의 책 Superintelligence와 내러티브 등에서 강조된 것 같습니다. 방금 설명한 것 같습니다.

Ben (00:37:18) :
그래서 인공 지능 위험에 대한 저 자신의 생각 중 상당수는이 스펙트럼의 더 극단적 인 끝에 대한 것이었기 때문에 몇 가지 이유로 초 지능과 같은 곳에서 우려가 나타납니다.하나는 제가 처음 만난 버전이고 특히 관심을 갖게 한 부분이라고 생각합니다. 이것은 부분적으로 개인적인 관심 이유라고 생각합니다.

Ben (00:37:39) :
그리고 다른 사람들은 이것이 단지 많은 AI 얼라인먼트 연구자들이이 버전의 관심사를 염두에 두지 않더라도 단지 일이라고 생각합니다.아직도 꽤 영향력 있고 잘 알려져 있다고 생각합니다.그리고 종종 누군가가 AI 위험에 대해 아는 것이 있다면 이것이 떠오르는 우려의 버전입니다.주목할 가치가있는 특별한 것 같습니다.그래서 제 생각 중 일부는 여러분이 실제로 이처럼 갑작스런 도약을하게되었고 오늘날과 같은 주요 AI 시스템이 실제로는없는 것이 그럴듯한 문제에 관한 것입니다.그리고 갑자기 어딘가에있는 어떤 연구원이이 중요한 돌파구를 갖게되고 여러분은이 단일 시스템으로 끝납니다.지루한 이유로 이것에 대해 상당히 회의적인 것 같습니다.

Ben (00:38:15) :
따라서 초기 지루한 이유 중 하나는 기술이 작동하는 방식이 아니기 때문입니다.좋아요의 관점에서 시작한다면 기술이 일반적으로 세상을 어떻게 변화시키는 지 살펴 보겠습니다.일반적으로 누군가가 무언가를 개발하는 데 수십 년이 걸리는 장기적인 프로세스이고 긴 개선 프로세스 인 경우입니다.그리고 그것은 다른 분야보다 먼저 일부 분야에서 포인트이고 다른 분야보다 먼저 일부 분야에서 유용합니다.그리고 사람들은 그것을 활용하기 위해 무료 발명품을 개발해야합니다.그리고 사람들은 그것을 실제로 적절하게 사용하는 방법을 알아 내야합니다.그리고 예측하지 못한 많은 조정과 문제가있어 프로세스를 느리게 만듭니다.전기처럼 전기 모터가 19 세기 초반에 발명되었다고 생각합니다.그러나 전기 모터는 1930 년대까지 미국 공장에서 우세하지 않습니다.

Ben (00:39:02) :
또는 20 세기 중반의 최초의 디지털 컴퓨터 였지만 90 년대부터 생산성 통계에 큰 의미로 표시됩니다.그리고 그럼에도 불구하고 다른 중요한 맥락에서 널리 사용되는 것과는 달리 실제로는 여전히 많은 국가가 아닙니다.그리고 경제의 더 큰 부분과 같은 의미에서는 아닙니다.그래서 그것은 거기에서 시작이되고 당신은 AI의 세부 사항을 너무 구체적으로 보지 않고 “우리가 가진 다른 기술과 같다면 나는 무엇을 기대할까요?”라고 말하는 것과 같습니다.아마도 그것은 경제적 변화 일 것입니다. 그것은 점진적인 일이 될 것이고, 발생하는 많은 성가신 일들이 될 것입니다.

Jeremie (00:39:35) :
그것에 대해 조금 조사하기 위해서.그래서 제가 상상하는 것 중 하나는 우리가 선택한 기간에 상관없이 지난 100 년 동안 기술의 발전과 보급을 가속화 시켰습니다.우리는 인터넷이하는 역할 등에 대해 꽤 많이 이야기했습니다.특히 제품을 디자인하는 팀, 제품을 배포하는 팀, 제품을 판매하는 팀 간의 피드백 루프를 강화하는 측면에서 커뮤니케이션이 필요합니다.통일성이 커뮤니케이션에 의해 주도되는 정도까지.”내부적으로 일관된 단일 AI 시스템이 있고 본질적으로 무한이 아니라 기계 시간에 맞춰 피드백 루프를 강화할 수있는 경우”라는 의미에서이 주장을 약화시킬 수 있습니까?그 위치가 흥미 롭다고 생각하십니까? 제가 묻고 자하는 것이 아닐까요?

Ben (00:40:28) :
그래서 흥미롭지 만 설득력이 없다고 생각합니다. 그래서 저는 경제적으로 관련된 모든 생산 작업을 제공 할 수있는 매우 광범위하게 사용할 수있는 AI 시스템으로 갑자기 도약한다고 상상하기 위해 뛰어 드는 것과 같은 아이디어가 있다고 말하고 싶습니다. 칩 채굴, 투표 투표소 운영, AI 연구, 더 많은 컴퓨팅 리소스 구축, 군사 전략없이 관리 할 수 있습니다. 갑자기 존재하는 단일 시스템이 있다고 상상하면 외부 요인과 상호 작용하거나 외부 리소스를 사용하지 않고이 모든 작업을 자체적으로 수행하는 것입니다. 통신 효율성 비용이 많이 줄어들었기 때문에 일이 더 빨리 발생할 수 있다는 직감이있는 것 같습니다. 하지만 이런 질문이 있습니다. 이것이 개발이 작동하는 방식이라고 상상해야합니까? 갑자기 이러한 모든 기능을 제공하는 단일 시스템이 될 것입니다. 그리고 AI의 경우에 대해 회의적 일 것입니다. 또 다소 지루한 이유로도 그렇습니다.

Ben (00:41:32) :
그래서 우리는 당신이 동시에 다른 분야에서 발전 할 수 있다는 것을 압니다.그래서 … 아마도 많은 청취자들이 이것, 언어 모델 또는 OpenAI가 개발 한 최근 시스템 GPT-3에 익숙하다고 생각합니다.이것은 대략 같은 시간에 단일 교육 과정을 통해 많은 다른 작업을 꽤 잘 수행 한 시스템의 예입니다.그래서 저는 기본적으로 웹 페이지의 방대한 코퍼스에서 훈련을 받았습니다.그리고 저는 기본적으로 제가 접한 문서에서 이미 접한 단어를 기반으로 가장 덜 놀라운 다음 단어를 예측하도록 훈련 받았습니다.

Ben (00:42:08) :
따라서 뉴스 기사의 헤드 라인을 작성하는 등의 작업에 사용할 수 있습니다. 그런 다음이 헤드 라인이 주어지면 기사에서 가장 놀라운 텍스트가 무엇인지 생각해 보겠습니다.그리고 사람들이 발견 한 한 가지는 실제로 다양한 작업을 수행하는 데 사용할 수 있다는 것입니다.예를 들어 스페인어로 문장을 작성하고 영어 번역이라고 말할 수 있습니다. 문장이 비어 있습니다.그리고 시스템은 적어도 다음에 발견 할 놀라운 것은 기본적으로 그것의 영어 번역과 같을 것이고 그것을시를 쓰는 데 사용할 것입니다.이 Emily Dickinson시와 그런 종류의시에서 가장 놀라운 결말은 무엇입니까?

Ben (00:42:42) :
그러나 어떤 의미에서 많은 다른 기능이있는 이러한 경우에도 한 번에 온라인 상태가됩니다.당신은 여전히 AI가 다른 것들에서 얼마나 좋은지에 대해 분명히 변이를 볼 수 있습니다.따라서 사용 가능한 컴퓨터 코드와 같이 대부분의 경우 쓰기가 매우 나쁩니다.약간은 할 수 있지만 기본적으로 현재로서는 유용한 방식으로 할 수 없습니다.Jabberwocky 스타일의시처럼 쓰는 데 꽤 능숙합니다.이 중 하나가 다른 시보 다 먼저 나왔습니다.그리고 일부 기능이 다른 기능보다 우선하는 확장되는 경우가 될 수도 있다고 생각할 이유가 있습니다.또한이 GPT-3 스타일을 통해서만 순수하게 생산할 수없는 몇 가지 기능이 있습니다.이 대규모 온라인 항목에서 훈련시킬 수 있습니다.

Ben (00:43:23) :
국방부 내부 메모를 번역하려면 다른 것에 대해 교육을 받아야합니다.의료법처럼 쓰길 원한다면 아마 [들리지 않음 00:43:30]은 당신을 위해 그렇게하지 않을 것입니다.슈퍼마켓 가격을 책정하거나 가격 인벤토리에서 설정하거나 실제로 회의를 예약 할시기를 알고있는 이메일을 개인화하려는 경우.다른 훈련 방법이 필요합니다.또는 인간보다 더 잘 수행하고 싶다면 다른 훈련 방법이 필요할 것입니다. 왜냐하면 당신은 그것을 줄 필요가 있기 때문입니다. 기본적으로하는 것은 사람에게 가장 덜 놀라운 일이 무엇인지 말하는 것입니다.인터넷에 글을 썼습니다.하지만 사람보다 더 잘하고 싶다면 다른 것을 사용해야합니다. 일종의 피드백 메커니즘입니다.

Ben (00:43:55) :
따라서 기본적으로 다른 기능이 다른 시간에 온라인으로 제공 될 것이라고 생각하는 이유입니다. 또한 연구자들에게는 실제로 나타나지 않는 여러 특정 영역에서 발생하는 성가신 내용이 많이있을 것입니다. 하지만 공장에서 실제로 전기 모터를 사용하는 사람들에게 [들리지 않음 00:44:07] 법칙과 같은 것을 적용하려는 경우, 공장 현장을 재 설계해야하는 것과 같은 문제가 발생합니다. 더 이상 중앙 증기 기관을 기반으로하지 않기 때문입니다. 하드웨어를 사용하는 것을 재 설계해야합니다. 작업자가 실제로이 기능을 활용하기 위해 사용하는 프로세스를 재 설계해야합니다. 일어나야 할 규정이 있습니다. 그리고 아마도 이러한 것들은 적어도 처음에는 다른 팀에서 어느 정도 처리해야 할 것입니다. 그리고 그들 중 일부는 다른 것보다 어렵거나 다른 것보다 다른 자원을 필요로 할 것입니다. 그리고 이것이 내가 온라인으로 올 것이라고 기대하는 긴 말과 같았다면 기본적으로 놀라 울 것입니다. 이것은 실제로 다른 작업에 대해 꽤 다른 지점에서 세상에서 정말 유용 할 것입니다.

Jeremie (00:44:40) :
흥미 롭군.네, 그게 완벽합니다.저에게 흥미로운 것은 이론가가 만들 시스템을 상상하면서 만드는 오류의 종류라는 것입니다. 그리고 이것이 오류가 아니라이 시나리오는 쉽게 통과 될 수 있습니다.그러나 이는 실제로 시스템과 경제의 최적화보다는 이론적 최적화에 초점을 맞춘 사람의 심리학에 매핑되는 것처럼 보이는 흥미로운 반대입니다.흥미 롭군.따라서이 중 어느 것도 반복적으로 자체 개선하고 [누화 00:45:21] 개발할 수있는 능력을 갖춘 AI 시스템이 미래의 어느 시점에서 가능하지 않을 것이라고 암시하는 것 같습니다.

Jeremie (00:45:23) :
이 질문에는 두 부분이 있습니다.먼저 A 씨, 그렇다고 생각하십니까, 아니면 그러한 시스템을 구축 할 수있을 것이라고 생각하십니까?그리고 B, 그러한 시스템이 구축 될 것입니까 아니면 구축 될 것이라고 생각하십니까?우리를 재귀 적으로 자기 개선하는 AI에 도달하기 위해 쌓이는 일련의 인센티브가 있습니까? [foom 00:45:47], 결국에는 무엇이든할까요?그럴듯한 이야기인가요?

Ben (00:45:51) :
네.그래서 여기에 몇 가지가 있습니다.그래서 첫 번째 부분은 재귀 적 자기 개선이 정말로 중요 할 것이라는 점이 저에게 분명하지 않다는 것입니다.따라서 분명히 피드백 루프가 있으며 향후 피드백 루프가 될 것입니다.따라서 우리는 더 제한된 방식으로 많은 기술을 봅니다.따라서 존재 소프트웨어는 소프트웨어 개발에 유용합니다.소프트웨어 개발자는 소프트웨어를 사용하고 컴퓨터는 컴퓨터 설계에 유용합니다.Nvidia 나 하드웨어 제조업체와 같은 사람들이 사용할 컴퓨터가 없었다면 직업이 훨씬 더 어려워 질 것입니다.따라서 기술 개발을 지원하거나 기술이 다른 기술 개발을 지원 한 경우가 많습니다.일반적으로 재귀 적이 지 않거나 일반적으로 자체적으로 개선되는 것과 똑같은 아티팩트가 아닙니다.

Ben (00:46:44) :
그리고 AI의 경우 재귀적일 것으로 예상 할만한 타당한 이유를 반드시 찾지는 않습니다.올바른 아키텍처를 찾는 AI 개발의 맥락에서 AI가 점점 더 많이 적용될 것으로 기대합니다.또는 기본적으로 다른 시스템을 개발하거나 제대로 작동하도록 만드는 가장 최적의 방법이 무엇인지 알아 내거나 학습합니다.하지만 다른 시스템을 훈련시키는 데 도움이되도록 개발 된 시스템이 아니라 개별 시스템이 자체적으로이를 수행한다고 생각할 강력한 이유를 반드시 확인하지는 않습니다.소프트웨어와 같은 방식은 저절로 개선되지 않습니다.나는 그것이 재귀 적이라는 것에 대한 큰 이점을 실제로 보지 못합니다.그렇게했다면 그럴 수도 있지만 왜 재귀 적인지, 왜 그것이 본질적으로 더 매력적인 지 모르겠습니다.어떤면에서는 덜 매력적으로 보일 수 있습니다.어쩐지 더러워 보이거나 이것이 약간 모듈식이라면 멋져 보입니다.

Jeremie (00:47:33) :
예, 저는 어느 정도 공학적 관점에서이 주장을 조금 강화하기 위해 상상할 수 있습니다 … 그래서 다른 시스템의 추상화가 있습니다.이 용어는 시스템 A가 있고 시스템 B가 있다고 말할 때 사용합니다.시스템 A가 자체적으로 개선되거나 시스템 B가 개선하고있을 수도 있고 시스템 A가 개선되고있을 수도 있습니다.이 경우 제가 생각하는 것은 기계 시간에 결정적으로 작동하는 폐쇄 형 시스템과 같은 것을 다루는 추상화라고 생각합니다.따라서이 형태의 도약과 같이 정의하는 내 마음의 주요 차이점은 이것이 자체 최적화 또는 시스템 A가 시스템 B를 개선한다는 사실이 마이크로 초 정도의 순서로 발생한다는 것입니다.또는 인간이 그 과정에 개입하지 않고 궁극적으로 결과가 우리의 기대에서 크게 벗어날 수있는 결과에 놀라게되는 이유는 무엇입니까?

Ben (00:48:33) :
네.그래서 저는 아마도 주요 차이점 중 하나가 개선 과정에 기본적으로 관련된 노동이라고 생각합니다.따라서이 AI 피드백 루프에 대한 일반적인 카운터는 변경 속도를 실제로 높이는 데 매우 중요합니다.20 세기 초에 연구 자나 엔지니어가했던 많은 작업이 더 이상 수행되지 않는 피드백 루프가 이미있는 것 같습니다.완전히 자동화되었습니다.따라서 실제로 손으로 계산하는 것은 엄청난 시간 낭비와 같습니다.공학을위한 연구 노력과 같습니다.따라서 사람들이 작업에 소비하는 시간 측면에서 방대하고 방대한 자동화가 이루어졌고 그 중 상당 부분이 어느 쪽이든 자동화되었습니다.그런 의미에서 기술 발전이 기술 발전에 도움이 된 정말 강력한 피드백 루프가있었습니다.

Ben (00:49:25) :
그러나 적어도 20 세기 중반 이후로 우리는 적어도 선도 국가에서 기술 발전과 같은 생산성 증가율의 증가를 보지 못했습니다.실제로 느려진 것 같습니다.그리고 그 비율은 현재 미국의 20 세기 초와 비슷합니다. 따라서 분명히이 피드백 루프는 그 자체로는 충분하지 않으며 상쇄되는 것이 있으며 아마도이 아이디어와 같은 것을 찾기가 어려워지고 있음을 의미 할 것입니다.현상.기술이 새로운 것을 만드는 데 도움이되지만, 만들고 싶은 각각의 새로운 것을 이전의 것에서 만드는 것이 조금 더 어렵습니다.쉬웠다면 이미했을 테니까요그래서 그것은 하나의 일반적인 반론입니다.

Ben (00:50:01) :
그리고 그에 대한 반박 론은 우리가 연구에 관련된 많은 작업을 자동화하고 그 작업을 수행 할 기계를 만든 다음 기계를 개선하는 것과 같습니다. 인간 노동은 항상 그것의 일부였습니다. 그리고 만약 당신이 자본에 의해 채워지는 인간 노동이 기본적으로 보완적인 이야기를 가지고 있다면. 우리는 계속 더 차가운 기계를 만들고 더 많은 기계를 만드는 노동 병목 현상이 있다고 생각합니다. 그러나 고정 된 양의 연구 노력으로 인해 기계의 차가움이나 기계의 수량에 대한 수익이 감소하고 있습니다. 따라서 연구 노력이 실제로 병목 현상입니다. 이는 연구자가 수행하거나 연구자가 소유 한 추가 멋진 기술의 한계 가치를 실제로 제한하는 이러한 감소하는 수익 현상을 만듭니다. 그리고 연구자들의 수는 인구와 같은 것들과 연결되어 있기 때문에 그렇게 쉽게 바꿀 수없는 꽤 일정한 기하 급수적 인 속도로 증가합니다.

Ben (00:50:57) :
그래서 제가 말했죠. 실제로 인간의 노동 만 그림에서 완전히 제거하면 사람들은 더 이상 R & amp; D 나 제조에 관여하지 않습니다.그렇다면이 경우 더 이상 수익 감소 효과가 없을 수도 있고, 고정 된 노동량과 같이 자본에 대한 수익이 감소하는 병목 현상이 더 이상 없을 것입니다.아마도 그것은 그저 자신에게 직접적으로 피드백을주고, 감소하는 수익은 어떤 중요한 의미에서 사라집니다.그리고 피드백 루프는 루프에서 사람을 완전히 제거하면 실제로 시작됩니다. 피드백 루프가 미래에 우리가 사용했던 비명 시적 피드백 루프와 다른 이유를 말할 수있는 이야기가 될 것입니다.지난 세기.

Jeremie (00:51:29) :
그리고 저는 인간의 자기 개선에 대한 피드백이 있다고 생각합니다.여기서는 시계 시간이 두드러진 특징이라고 생각하지만 생산성 향상을 위해 노력하고 있으며,이를 제정하기 위해 노력하고 있습니다.나는 나 자신을 향상시키는 방법을 개선하려고 노력합니다.원칙적으로 나는 무한한 수의 파생물 또는 물질에 가깝게 그렇게한다고 생각합니다.기하 급수적 인 특성이 있지만 분명히 저는 아직 Elon Musk가 아닙니다.어려운 도약을하지 못해서 어딘가에 차이가 있습니다.

Ben (00:52:05) :
네.그래서 제가 말하고 싶은 것은 아마 당신의 말이 맞다고 생각합니다. 그것은 실제 현상입니다.많은 규모가 관련되어 있지만 스스로 개선해야 할 정도는 기술보다 훨씬 적다고 생각합니다.연구원 단위가 노트북에있는 사람이라고 가정 해 봅시다.그리고 그것이 연구를 생산하는 것입니다.그 사람은 실제로 코딩을 더 잘할 수 있고, 일을 빠르게하는 방법을 더 잘 배울 수 있고, 배우는 방법을 배울 수 있습니다.그러나 생산성의 실제 차이는 2020 년 평균 연구원에 비해 인적 자본 측면에서 10 배 정도 증가하는 데 도움이 될 수 있습니다.당신의 노트북은 지금보다 훨씬 더 나은 것을 얻을 수 있다는 측면에서 올라갈 수있는 [들리지 않음 00:52:44]이 더 많은 것 같습니다.

Jeremie (00:52:49) :
안타깝게도 그럴 것 같지만 계속 노력하면됩니다.그게 필요한 것 같아요.

Ben (00:52:56) :
네.랩톱의 개선 속도에 대한 경주에서 행운을 빕니다.

Jeremie (00:52:59) :
네.감사.이륙하면 알려 드리겠습니다.정말 흥미 롭습니다. 여러분이 이것에 대해 너무 많은 생각을 해왔고 여러분이 이것에 대해 생각하는 방식에있어서 약간의 변화를 볼 수 있습니다. 확실히 전에 고려하지 않은 측면이 있습니다.그것은 시스템 관점에서 오는 경제학 관점에서 비롯됩니다.이것이 기술 AI 안전 전문가들 사이에서 특히 드물다고 생각하는 방식입니까?아니면 그것이 채택되는 것을보기 시작 했습니까? 저는 여전히 풍경이 어떻게 생겼는지, 그리고 시간이 지남에 따라이 주제에 대한 견해가 어떻게 바뀌고 있는지 함께 모 으려고 노력하고 있습니다.예를 들어 2009 년을 기억하기 때문에 [들리지 않음 00:53:45]이었습니다.기본적으로 모든 사람들이 상자 속의 뇌에 대한 생각이나 기계 자체가 향상되는 빠른 이륙에 대해 이야기했습니다.

Jeremie (00:53:54) :
지금은 OpenAI, Paul Christiano, 그리고 Future of Humanity Institute에서 진행중인 많은 작업 사이에서 실제로처럼 보이지만 상황이 바뀌고 있습니다.그리고 저는 그 변화, 타임 라인, 그리고이 모든 주제들과 관련하여 커뮤니티가 현재 어떤 위치에 있는지에 대한 여러분의 관점을 얻고 싶습니다.

Ben (00:54:11) :
네.그래서 저는 확실히 변화가 있었다고 생각합니다.이 커뮤니티의 중앙값이 그것에 대해 생각하고 있다고 가정 해 봅시다.한 방향으로 생각하는 사람들의 관점에서 다른 생각으로 이동하는 것이 얼마나 많은지 저에게는 조금 모호합니다.더 많은 사람들이 기존에 다른 사고 방식으로 커뮤니티에 진입하는 것에 비해.사람들이 좀 더 구체적인 방식으로 생각하는 요소가 있다고 생각합니다.많은 오래된 분석에서 생각하는 것은 매우 추상적입니다.아주 많이 의존합니다… 그것은 정확히 수학적이 아니라 사람들이 추상적 인 대수를하는 것과 같습니다.하지만 분명히 더 수학적 사고 방식과 같을 것입니다.

Ben (00:54:58) :
시간이 지남에 따라 변화합니다.그 이유 중 하나는 매우 정당하다고 생각합니다. 2000 년대 중반 사람들이 이것에 대해 이야기 할 때입니다.머신 러닝은 정말 큰 일이 아니 었습니다.사람들은 논리 지향 시스템이 AGI가 어떻게 보일 것이라고 생각했습니다.정말 생각할 모델로 사용하기 위해 모든 AGI-ish를 실제로 보았던 모든 것.그리고 저는 기계 학습이 시작되고 사람들이 이러한 시스템을 갖기 시작했다고 생각합니다. 분명히 이것이 AGI가 아니며 아마도 AGI가 그것과 매우 다를 것입니다.AGI로가는 길에있는 작은 디딤돌과 같습니다.마치 AGI 같은 것 같네요.

Ben (00:55:41) :
이러한 구체적인 예를 들으면 약간 다른 방식으로 생각하게됩니다. 이전에 가졌던 추상 프레임 워크의 맥락에서 설명하기가 실제로 약간 어렵다는 사실을 깨닫기 시작합니다. 따라서 GPT-3에는 목표가 있거나이 동작을 예측하려는 경우 얼마나 유용합니다. 다음 단어가 놀랍지 않은 것을 만들어내는 것이 목표라고 생각하지만 그렇게 생각하는 것이 옳다고 생각하지 않습니다. 이 행동을 예측하는 데 얼마나 유용한지는 분명하지 않습니다. 출력을 막기 위해 사람을 죽이는 것과 같은 미친 짓을 할 위험이없는 것 같습니다. 왠지 잘 맞지 않는 것 같은 느낌이 듭니다. 또한 더 구체적인 응용 프로그램을보고 생각하는 것뿐입니다. 예를 들어 Paul Christiano가 어느 정도 낙관적으로 말한 것처럼 말한 것 같습니다. 큰 돌파구가없는 미래.” 사람들에게 전부 또는 전부가 아닌 더 지속적인 의미로 생각하도록합니다. 중간 변형의 디딤돌을 볼 수있는 것과 같습니다.

Ben (00:56:41) :
그래서 좀 더 구체적이면서 중간 응용 프로그램을보고 있다고 생각합니다.그리고 추상적 인 구성에 대해 좀 더 회의적인 느낌이 들었습니다. 단지 당신이보고있는 것에 맞추기가 어렵거나 효과가있는 일부 힘 때문일 수도 있습니다.일반적으로 나는 사물에 접근하는 더 수학적이고 고전적인 방법이 여전히 상당히 유용하거나 사물에 접근하는 주된 방법이라고 생각하는 사람들이 많이 있다고 생각합니다.

Jeremie (00:57:09) :
네.나는 실제로 논증을 들었습니다. GPT-3와 같은 시스템이 당신이 설명한 방식대로 병리학적인 것이 될 것이라는 논증은 꼭 들어 보지 않았습니다.그러나 적어도 그런 시스템이 정말로 심하게 잘못 될 수있는 세계를 설명하는 내부적으로 일관성있는 소리를 들려 줄 수있는 이야기.이 경우 GPT-10을 상상 해보세요.그리고 당신은 반드시 영광스러운 자동 완성 작업처럼 이것을하는 시스템을 가지고있었습니다.하지만 그 작업을 수행하기 위해 분명해 보이는 한 가지는 세계의 상당히 정교한 모델을 개발하고 있다는 것입니다.이것이 암기인지 실제 일반화 가능한 학습인지에 대한 논쟁이 있습니다.하지만 GPT-3에 의심의 이점을 제공하고 일반화 가능한 학습이라고 가정하겠습니다.이 경우 시스템은 점점 더 정교한 세계 모델, 더 크고 더 큰 컨텍스트 창을 계속 개발합니다.

Jeremie (00:58:06) :
결국 세계의 모델에는 GPT-3 자체가 존재하고 세계의 일부라는 사실이 포함됩니다.결국 이러한 실현은 그래디언트를 최적화하려고 시도하면서 “오, 나는 일종의 와이어 헤딩을 통해 내 그래디언트를 직접 제어 할 수 있습니다.”라는 사실을 깨닫게합니다. 일반적으로 [crosstalk 00:58:25] 커뮤니티에서 프레임이 구성됩니다.등등.설명하신 문제가 이런 사고 방식에 적용되는 것 같습니다.하지만 GPT-3이 어떻게 이러한 초록 중 일부에 대한 구체적인 생각을 이끌어 냈는지 흥미 롭습니다.

Ben (00:58:39) :
네.이러한 구체적인 시스템을 갖는 것도 매우 유용하다고 생각합니다. 왜냐하면 그것들이 직관에 차이를 강요한다고 생각하기 때문입니다.또는 컴백과 가정의 차이를 표면에 강요하십시오.예를 들어, 일부 사람들이 이러한 GPT 시스템에 대해 우려를 표명 한 경우가 있습니다. GPT-10을 사용하는 경우 매우 위험 할 수 있습니다.사실 저는 이것을 짐작하지 않았을 것입니다.아니면 다른 사람들이이 직감을 가지고 있지 않았다고 생각하지 않았을 것입니다.내 기본 직관은 기본적으로 시스템이 작동하는 방식에 비해 너무 대략적인 근사치이기 때문입니다.일부 매개 변수의 모델이며 텍스트 코퍼스처럼 노출됩니다.기본적으로 X 단어를 출력하고 다음 단어가 실제로 옳거나 맞지 않습니다.또는 기본적으로 데이터 세트의 실제 단어에 비해 출력을 덜 놀라게하는 그라디언트가 있습니다.

Ben (00:59:35) :
기본적으로 단어 출력에 최적화되어 있습니다. 온라인 어딘가에있는 텍스트에서 X 단어로 찾는 것은 놀라운 일이 아닙니다.그리고 GPT-10을 생각할 때 “와, 그냥 단어를 출력하는 것 같아요. 온라인 웹 페이지에서 찾는 건 그리 놀랍지 않네요.”그것이하는 일과 똑같습니다.그리고 그것이 사람들로 하여금 세상이나 무언가를 파괴하도록 이끄는 출력 단어와 같은 일을한다고 가정 해 봅시다.온라인에서 찾을 때 가장 놀랍지 않은 단어 일 때만 그렇게 할 것 같습니다.세상을 파괴하는 단어가 아니라면, 사람들은 보통 온라인에서 그런 종류의 글을 쓰지 않기 때문에 온라인에서 찾는 것이 놀랍습니다.그렇다면 경사 하강 법 과정에서 이상한 일이 발생한 것 같습니다.

Jeremie (01:00:15) :
그래서 프레임을 만드는 데 정말 좋은 방법이라고 생각합니다.저는 그것에 대한 반론이 마치 20 만년 전의 인간을 섹스 옵티 마이저 또는 이와 비슷한 것으로 볼 수 있다고 생각합니다.그리고 우리는 우리의 진화가 전개되면서 우리가 그렇지 않다는 것을 알게됩니다.제 생각에 여기에있는 경우는 신경망이 실제로 최적화하는 것이 무엇인지에 대한 깊은 질문이 있습니다.손실 함수를 최적화하고 있는지 또는 그래디언트가 업데이트 될 때마다 킥을 느끼는지는 실제로 명확하지 않습니다.“오, 틀렸어요.이것으로 모든 요금을 업데이트하십시오.”

Jeremie (01:00:58) :
그 킥이 아파요?그렇다면 이것이 이러한 시스템에 의해 최적화되고있는 것이 진정한 것일까 요?그리고 그게 사실이라면, 우리가이 주변을 둘러싸고있는이 전체 영역이 분명히 내부 정렬이 있습니다.하지만 그것은 깊은 토끼 구멍입니다.

Ben (01:01:15) :
그래서 저는 시스템을 훈련 할 때 사용되는 손실 함수와이 시스템이하려는 것처럼 작동하는 것 사이에 차이가 있다는 데 동의합니다.그리고 정말 간단한 방법이 하나 있습니다. 그것은 강화 학습 시스템을하는 체스처럼 시작하는 것입니다.그리고 보상 함수, 그와 관련된 손실 함수가 있지만 아직 훈련하지 않았습니다.그것은 체스에서이기려고하는 것처럼 행동하지 않을 것입니다. 왜냐하면 그것은 가장 뻔뻔한 예 중 하나와 같기 때문입니다. 단지 합산되지 않습니다.

Ben (01:01:40) :
그리고 분명히 시스템을 훈련시키는 이식 사례가 있습니다. 예를 들어 비디오 게임에서 왼쪽에 녹색 상자가 열리고 오른쪽에 빨간색 상자와 같은 녹색 상자가 열릴 때마다 점수를 얻는다고 가정 해 보겠습니다.왼쪽에 빨간색 상자가 있고 오른쪽에 녹색 상자가있는 새로운 환경에 배치합니다.지금까지 제공 한 교육 데이터는 실제로 구분하기에 충분하지 않으며 실제로 보상을받는 것과 같은 소리를냅니다.빨간색 상자를 열기위한 것입니까, 아니면 왼쪽에있는 상자를 열기위한 것입니까?예를 들어 시스템이 왼쪽의 상자를 열어도 실제로 손실 함수가 아닌 것이 빨간색 상자이거나 그 반대 일지라도 놀라지 않아야합니다.잘못된 방식으로 일반화되는 것은 놀라운 일이 아닙니다.

Ben (01:02:21) :
그래서 저는 일반화 오류가있을 수 있다는 데 확실히 동의합니다.GPT-3와 같은 경우와 같이 왜 결국 발생하는지 알기 위해 고군분투합니다. 저는 기계적으로 무슨 일이 일어날 지, 어디에서 일어날 지 … 그러니 문제가 텍스트이기 때문이라고 가정 해 봅시다.누군가가 읽은 텍스트를 출력하는 생성 시스템은 모든 사람을 죽이는 무언가에 대한 엔지니어링 청사진입니다.이것이 실존 적 위험을 초래하는 비 공상 과학 버전 같은 것이 있는지는 모르겠지만 그것이하는 일이라고합시다.가끔은 거의 … 대답하거나 뭔가를 놓치고있는 것처럼 느껴집니다.하지만이 등급 설계 프로세스가 왜 그렇게하는 정책을 갖게되는지 기계적으로 이해하지 못합니다.왜 그런 방향으로 최적화 될까요?

Jeremie (01:03:06) :
내가 줄 대답은 이것에 대해 충분히 생각하지 않았을 것입니다.그러나 원칙적으로 상상하면 무제한의 컴퓨팅, 무제한의 데이터 확장 등을 가정 해 보겠습니다.이 모델은 생각하기 시작하고 점점 더 많이 생각하고 세상에 대한 더 크고 더 완전한 그림처럼 발전한다고 가정 해 보겠습니다.다시 말하지만, 최적화하려는 대상에 따라 그라디언트를 최소화하기 위해 최적화하려고한다고 가정합니다.이것은 매우 과정입니다. 저는 어떻게 든 틀렸다고 생각하지만, 신경망이 걷잡을 때마다 기분이 나쁘다고 상상하는 것이 옳다고 생각합니다.모르겠어요.

Ben (01:03:47) :
기분이 나쁘지만 실제로 말이되지 않는다고 생각합니다.제 생각에는 특정 매개 변수가 있고 무언가를 출력하고 훈련 세트와 비교합니다.그런 다음 불일치에 따라 [들리지 않음 01:04:02] 다른 방향으로 걷어 찼습니다.하지만 실제로 내면이 있다고 생각하지 않습니다… 실제로 기분이 나쁘다는 의미는 없다고 생각합니다.막대기처럼 움찔 거리는 매개 변수가 있습니다.이 사람은 막대기를 들고 불일치 또는 불일치 부족을 기준으로 매개 변수를 다른 방향으로 밀고 결국 어딘가로 끝납니다.

Jeremie (01:04:23) :
네.그래서 이것은 그 자체로 가장 멋진 측면 중 하나라고 생각합니다.나는 여기서 내면의 정렬 흥분에 산만해질 것입니다.하지만 그것은 정렬 논쟁에서 저에게 가장 멋진 측면 중 하나입니다. 주관적인 경험과 의식에 대해 궁금해하는 지점에 도달하기 때문입니다.“이건 일종의 학습 과정”이라고 말하지 않고 대화를 나눌 방법이 없기 때문입니다.그리고 학습 과정은 인간과 같은 인공물을 생성하는 경향이 있습니다. 그것은 기본적으로 모든 생명체와 같은 주관적인 경험을 가지고있는 것처럼 보이는 뇌입니다.아메바를보고 현미경으로 움직일 수 있습니다.서로 다른 방식으로 다른 순간에 고통과 기쁨을 경험하는 것 같습니다.

Jeremie (01:05:02) :
어쨌든 유사하게 해석 될 수있는 방식으로 작동하는 이러한 시스템을 보는 것은 적어도 실제 Mesa-objective, 최적화 프로그램이 실제로 개선하려는 기능 및 주관적인 경험 사이의 연결 고리가 무엇인지에 대한 질문을 불러 일으 킵니다.나는 거의 잘 이해하지 못하는 영역으로 가고 있습니다.그러나 아마도 나는 생각을 떠날 수 있습니다. 이것은 또한 문제의 정말 흥미롭고 흥미로운 측면이라고 생각합니다.의식과 주관적 경험이 이러한 기계의 맥락에서 연구 할 역할을한다고 생각하십니까?아니면 당신은-

Ben (01:05:44) :
I think not so much of that. There’s a difficulty here where there’s obviously the different notions of consciousness people use. So I guess I predominantly think of it in I guess the David [inaudible 01:05:55] sense of conscious experience as this at least hypothesized phenomenological thing that’s not intrinsically a part of the… It’s not like a physical process, so it’s not a description of how something processes information. It’s an experience that’s layered on top of the mechanical stuff that happens in the brain. Whereas if you’re illusionist, you think that there is no such thing as this, and this is like a woo-woo thing. But I guess for that notion of consciousness, it doesn’t seem in a sense very directly relevant because it doesn’t actually have the weird aspects of it. It’s by definition or a hypothesis, not something that actually physically influences anything that’s happened somewhat behaviorally. And you could have zombies where they behave just the same way, but they don’t have this additional layer of consciousness on the top.

Ben (01:06:44):
So that version of consciousness, I don’t see as being very relevant to understanding how machine learning training works or how issues on MACE optimization work. And maybe there’s mechanistic things that people sometimes refer to using consciousness, which I think sometimes has to do with the information system. Somehow having representations of themselves is maybe one traits that people pick out sometimes when they use the term consciousness. It seems like maybe some of that stuff is relevant or maybe beliefs about what your own goals are, this sort of thing. Maybe this has some interesting relationship to optimization and human self-consciousness and things like that. So I could see a link there, but I guess this is all to say it depends a bit on the notion of consciousness that one has in mind.

Jeremie (01:07:38) :
아뇨, 완벽합니다.그리고 이러한 것들이 경제학에서 의식 이론, 정신 이론에 이르기까지 다양한 분야와 얼마나 많이 겹치는 지 흥미 롭습니다.통찰력을 공유 해주셔서 감사합니다, Ben, 정말 감사합니다.흥미로운 작업을하고 있다고 생각하기 때문에 사람들이 작업을 확인할 수 있도록 공유하고 싶은 Twitter 또는 개인 웹 사이트가 있습니까?

Ben (01:07:57):
네.그래서 개인 웹 사이트가 거의 없지만 제가 참고하는 논문이 몇 개 있습니다.benmgarfinkel.com입니다.트위터 계정이 있지만 트윗을 한 적이 없습니다.내 사용자 이름이 뭔지 잊어 버렸습니다.하지만 그걸 찾아서 팔로우하고 싶다면 언젠가 그로부터 트윗을 올릴 수 있습니다.

Jeremie (01:08:15) :
그것은 설득력있는 피치입니다.그러니 여러분, Ben이 트윗 할 가능성을 살펴보세요.

Ben (01:08:22) :
지금 당장 1 층에 오시면 저의 트윗을 가장 먼저 본 사람이 될 수 있습니다.

Jeremie (01:08:27) :
그들은 씨앗에서 그것을 얻고 있습니다.지금은 시드 단계를 투자 할 때입니다.대박.고마워요, 벤.나는 Twitter를 포함하여 두 가지 모두에 링크 할 것입니다.

Ben (01:08:36) :
추가 된 트위터 팔로워를 기대합니다.

Jeremie (01:08:40) :
There you go. Yeah. Everybody, go and follow Ben, check out his website. And I’ll be posting some links as well in the blog post that will accompany this podcast just to… Some of the specific papers and pieces of work that Ben’s put together that we’ve referenced in this conversation because I think there’s a lot more to dig into there. So Ben, thanks a lot. Really appreciate it.

Ben (01:08:56) :
정말 고마워.정말 재미있는 대화였습니다.

How Do Data Scientists Use Twitter? Let Us Count the Ways -번역

2021년 2월 18일 by hyungseok

읽기 목록

데이터 과학자들은 Twitter를 어떻게 사용합니까?방법을 세어 보자

TDS 아카이브에서 최고의 Twitter 데이터 분석을 찾아보세요.

벤 후버 만

1 일 전·4 분 읽기

일화로, 트위터에있을 수 있거나 삶에서 기쁨, 건강 및 균형을 찾으려고 시도 할 수 있지만 둘다는 아닙니다.내 타임 라인의 작가, 언론인, 틈새 음식에 대한 의견이 많은 사람들은 상당히 다양한 라인업을 형성합니다.우리를 하나로 묶는 것은 공간 그 자체에 대한 강한 양면성입니다. 예, 여기서 말을하겠습니다. 우리가 잊을 수없는“지옥”입니다.

과거의 TDS 아카이브 파헤 치기에프몇 주 동안 다른 가능성, 심지어 대체 현실을 제시하는 예상치 못한 효과가있었습니다.여기 수십 명의 데이터 과학자와 AI 전문가가 트위터에서 엄청난 시간을 보내고 … 그것으로 생산적인 일을하고 있습니까?!아니절망의 나선에 빠지는 것?!세상에 대한 사려 깊은 통찰력 그리기?!?!

그게 어떻게 가능 했습니까?

뉴스의 주요 소스로 플랫폼을 사용함으로써 제 인식이 크게 달라 졌다는 것이 이제 분명합니다.당신이 주로 트위터에 가면 [무작위로 무차별 적으로 손을 흔들어 세상에], 뉴스에 대한 감정이 결국 앱에 대해 느끼는 감정과 수렴하는 이유가 될 것입니다.반대로 한 걸음 물러서서다른사람과 커뮤니티는 플랫폼을 사용합니다.트위터는 강력한 API 덕분에 가능했습니다.-저도 언젠가 달성하기를 희망하는 행복한 분리 (또는 적어도 그것의 유사성)에 자신을 부여합니다.

내 요점을 증명하기 위해 내가 가장 좋아하는 TDS Twitter / 데이터 과학 크로스 오버 게시물이 있습니다. 읽어보세요!그들 모두, 그들 중 일부, 커플;후회하지 않을 것입니다.아카이브 실행매우깊은, 그래서 저는 몇 가지 주요 필터링을 거쳐 새롭고 주목할만한 실습 리소스 및 역대 최고의 제품이라는 세 가지 범주에 걸쳐이 컬렉션을 모았습니다.뛰어 들자.

새롭고 주목할만한

내가 주로 뉴스 소비에 트위터를 사용한다고 언급 했나요?그 이유는 정치적, 문화적 순간을 포착하는 플랫폼의 부인할 수없는 능력 때문입니다.이다순간.Black Lives Matter (그리고 때때로 기업이 사회 운동에 참여하는 방식)부터 트위터 사용자의 넷플릭스 히트작에 대한 환호 한 반응까지Bridgerton휴일 동안이 최근 게시물은 데이터 과학 도구를 적용하여 그러한 순간을 깊이 연구하고 매우 잘 수행합니다.

Fortune 100과 Black Lives Matter

BLM 시위 중 Fortune 100 대 트윗 데이터 세트를 통해 미국 기업과 소셜 사이의 어색한 관계가 드러납니다.

towardsdatascience.com

BRIDGERTON : Netflix에서 가장 많이 스트리밍 된 TV 시리즈 분석

Python & amp;에서 NLP 기술을 사용하여 Bridgerton TV 시리즈에서 300,000 개가 넘는 트윗 분석Tableau

towardsdatascience.com

트럼프의 트위터 네트워크

소셜 미디어 : 실행에 대한 도전

towardsdatascience.com

COVID-19 이전 백신에 대한 온라인 대화의 대규모 분석

백신의 역할과 필요성에 대한 논의가 그 어느 때보 다 강력 해졌습니다.COVID-19 이전에는 어땠습니까?소셜 미디어는…

towardsdatascience.com

COVID-19 기간 동안 뉴스 주제를 기반으로 한 트위터 감정 분석

— 온라인 대중이 전염병에 대응하는 방법

towardsdatascience.com

실습 리소스

많은 독자들이 TDS를 찾는 이유는 우리 커뮤니티가 자신의 업무, 연구 또는 열정 프로젝트에서 직면 한 실질적인 도전에 대한 답을 찾는 곳이기 때문입니다.트위터 데이터 분석도 예외는 아니며 여기에 수집 된 게시물은 트윗에서 통찰력을 수집, 정리, 처리 및 도출하는 방법에 대한 명확성과 단계별 지침을 제공합니다.

Python을 사용한 Twitter 데이터 수집 자습서

“데이터가 없으면 의견이있는 다른 사람 일뿐입니다.”— W. Edwards Deming

towardsdatascience.com

12 가지 트위터 감정 분석 알고리즘 비교

트윗 분류의 정확성에 대해 12 가지 감정 분석 알고리즘을 비교했습니다.fasText 딥 러닝…

towardsdatascience.com

Twitter 데이터 마이닝 — 사용자 영향 측정

추종자와 영향;과학적 통찰력

towardsdatascience.com

내 첫 트위터 앱

Python 및 Tweepy를 사용하여 고유 한 데이터 세트를 만드는 방법

towardsdatascience.com

원시 Twitter 데이터의 정보 시각화 — 1 부

원시 Twitter 데이터에서 쉽게 검색 할 수있는 정보를 살펴 보겠습니다!

towardsdatascience.com

Twitter Ego-Networks & amp;자아 커뮤니티 감지

Twitter 네트워크에서 커뮤니티 감지에 대한 그래프 기반 접근 방식

towardsdatascience.com

역대 최고의 인물

예,이 주제에 대한 우리의 아카이브는 방대하지만 대부분의 트윗과 달리 일부 게시물은 실제로 시간의 시험을 견뎌냈으며 작성자가 처음 게시했을 때와 마찬가지로 오늘날에도 날카 롭고 매력적입니다.트위터의 자체 채용 프로세스부터 트윗의 언어 적 표시에서 우울증 징후 감지에 이르기까지 다양한 주제를 다룹니다.하지만 먼저 :귀여운 강아지.

Twitter 분석 : “WeRateDogs”

데이터 랭 글링 및 분석 블로그

towardsdatascience.com

Recsys 2020 챌린지에서 Twitter가 배운 내용

RecSys 2020 Challenge의 인사이트를 설명합니다. Twitter에서 후원 및 대규모 사용자 데이터 세트를 제공했습니다.

towardsdatascience.com

당신은 당신이 트윗하는 것입니다

트위터 사용을 통해 소셜 미디어에서 우울증 감지

towardsdatascience.com

Facebook과 Twitter는 18 세기 유럽에서 탄생했습니다.

간단한 현실 세계 퍼즐이 어떻게 가장 큰 소셜 미디어 엔진을 구동하는 수학을 만들어 냈는지.

towardsdatascience.com

Python을 사용한 또 다른 Twitter 감정 분석 — 1 부

내 마지막 게시물 이후로 오래되었습니다.미디엄에서 부재하는 동안 제 인생에서 많은 일이 일어났습니다.드디어 모아서…

towardsdatascience.com

NLP에 대해 알아야 할 4 가지 팁 — 트위터 데이터 과학자가 전하는

Twitter의 NLP 프로젝트, 인터뷰 프로세스 및 데이터 과학 도구 — TDS 인터뷰를 독점적으로 살펴 봅니다.

towardsdatascience.com

특히 위의 사항 중 하나가 귀하에게 반향을 불러 일으켰다면 알려주십시오.또한 : 여기 또는 다른 사이트에서 Twitter 관련 데이터 프로젝트를 다루는 훌륭한 게시물을 읽었습니까?직접 작성 했습니까?의견에서 우리와 공유하십시오.또한-향후 읽기 목록에서 다루고 싶은 다른 주제가 있습니까?그것도 말 해주세요.

Georgia Tech’s MS Analytics Program: My Review Part II -번역

2021년 2월 17일 by hyungseok

Georgia Tech의 MS Analytics 프로그램 : My Review Part II

스티븐 핀켈 스타 인

첫 글을 쓴 후리뷰OMSA 프로그램의 많은 예비 학생들과 현재 학생들과 연락을 받았습니다.이 프로그램은 다양한 배경을 가진 학생들을 끌어 들이기 때문에 모든 사람에게 적용되는 조언을 제공하는 것은 어려울 수 있습니다.다음은 제가받는 가장 일반적인 질문과 그에 대한 답변입니다.

OMSA가 나에게 적합한 프로그램입니까?

프로그램 설명을 읽으면디동의 개요페이지, 그들은 “학제 간”이라는 설명자를 사용합니다.저는 이것이 프로그램에 대한 완벽한 단어 선택이라고 생각합니다.이 프로그램에서 다루는 주제의 범위는 다양한 분야에서 나옵니다.그만큼필수과정은 재무, 회계, 객체 지향 프로그래밍, 데이터 분석, 기계 학습, 통계, 웹 개발, 클라우드 컴퓨팅, 데이터 정리, 스크립팅 언어 및 데이터 시각화를 다룹니다.이 고도로 기술적 인 프로그램의 강조점은 깊이에 대한 폭입니다.그게 매력적으로 들리면 이것이 당신을위한 프로그램 일 수 있습니다.그러나 전문가가되고 이러한 개별 분야 중 하나를 전문으로하고 싶다면이 프로그램보다 더 나은 옵션이 있습니다.

이 프로그램은 폭을 강조하지만 자료의 난이도를 과소 평가하지 마십시오.비즈니스, 컴퓨터 과학 및 통계 분야에서 유능하다는 것은 쉬운 일이 아닙니다.종종 개인은이 프로그램에서 다루는 분야 중 하나 이상으로 어려움을 겪습니다.학위의 기술적 엄격함에 관심이 있다면 등록 전에 기술을 향상 시키거나 다른 프로그램을 고려할 것을 권합니다.다른 온라인 정량 석사 학위에는 데이터 과학, 응용 경제학, 통계, 컴퓨터 과학, 비즈니스 분석 및 MBA : 분석 집중이 포함됩니다.대학의 비즈니스 스쿨에서 실행되는 분석 프로그램은 수학 및 컴퓨터 과학에서 덜 엄격 할 것입니다.

어떤 OMSA 전문화를 선택해야합니까?

필수 과정을 마치면 3 가지 전문화 중에서 선택할 수 있습니다.전문화라는 단어는 대부분의 프로그램이 모든 학생에게 동일하기 때문에 약간 오해의 소지가 있습니다.해당 전문 분야에는 6/36 크레딧 만 제공됩니다.그렇지 않으면 나머지는 필요하거나 귀하의 재량에 달려 있습니다.다음과 같이 세 가지 전문 분야를 빠르게 요약 할 수 있습니다.

난이도가 다소 주관적이지만 대부분의 학생들이 내 평가에 동의 할 것이라고 생각합니다.컴퓨터 과학 과정은 주당 가장 많은 시간을 요구하는 경향이 있습니다.

추천하고 싶은 특별한 수업 순서가 있습니까?

이 프로그램에서 다루는 다양한 분야가 너무 많기 때문에 적절한 수업 순서를 결정하기가 까다로울 수 있습니다.결정하는 동안 고려해야 할 많은 변수가 있습니다.다음은 이상적인 2 ~ 4 년 대학원 계획을 세우기 전에 답해야 할 몇 가지 질문입니다.

한 학기에 몇 개의 수업을들을 수 있습니까?
평균 작업량은 코스에 따라 3 학점당 주당 8-20 시간입니다.수업 기대치에 따라 어떤 수업을 함께 사용할 수 있는지 고려해야합니다.귀하의 개인 시간 약속은 해당 과목의 기술 강도에 따라 평균과 다릅니다.예를 들어 통계에 대한 배경 지식이 풍부하다면 통계 과정에 평균 이하의 시간을 할애 할 수 있습니다.

매 학기에 어떤 수업이 제공됩니까?
여름 학기는 가을과 봄보다 짧습니다.따라서 전체 수업 목록의 하위 집합 인 더 빠른 속도로 이동할 수있는 과정 만 제공합니다.더 빠른 속도로 실행되기 때문에 주당 평균 워크로드는 평균보다 약 20 % 높습니다.

가까이에서 수강하기에 가장 적합한 수업은 무엇입니까?
서로 밀접하게 관련된 두 가지 분야를 취하는 것이 훨씬 쉽습니다.개인적으로 저는 데이터 분석을위한 컴퓨팅 소개를 마치고 프로그래밍 기술의 정점에있었습니다.가장 어려운 컴퓨터 공학 과정 인 데이터 및 시각적 분석을이 과정 직후에 수강했으면합니다.어떤 수업이 보완 과목으로 잘 어울리는 지 고려해야합니다.

OMSA 프로그램은 그만한 가치가 있습니까?

가치를 결정하려면 프로그램 비용과 프로그램 완료의 예상 수익을 추정해야합니다.이 프로그램의 금전적 비용은 13,000 달러 *이지만 프로그램을 완료하는 데 인건비는 2,160 시간 **입니다.비교 가능한 대학원 학위 측면 에서이 프로그램의 수업료는 스펙트럼의 가장 낮은 쪽입니다.그러나 사회에서 자격주의의 가치가 떨어지고 있다고 생각한다면이 자료를 배우는 데 훨씬 더 저렴한 옵션이 있습니다 (예 :Coursera,무료 온라인 리소스등).수업료가 당신과 관련이 없다면 시간 약속을해야합니다.앞서 언급했듯이이 프로그램은 깊이가 아닌 분석 공간의 폭에 관한 것입니다.실험, 인공 지능 또는 데이터 엔지니어링과 같은 분석 하위 집합의 전문가가되고 싶다면 다른 곳에서 시간을 보내는 것이 좋습니다.

반환 관점에서이 프로그램은 주로 구조화 된 학습 환경과 최소한 엔트리 레벨 데이터 분석 위치의 두 가지를 제공합니다.이 프로그램은 각 분야의 전문가들이 제공하는 대부분의 과정에 대해 잘 짜여진 강의 계획서를 제공합니다.과제는 구성되어 있으며 일반적으로 가능한 한 적시에 피드백을받을 수 있도록 자동 채점자가 있습니다.환경에는 다음을 포함하여 과제에 대한 지원을 찾기위한 다양한 커뮤니케이션 모드가 포함됩니다광장, Slack 및 근무 시간 세션.특정 문제를 해결하기위한 힌트를 찾기 위해 Piazza의 수십 개의 게시물을 읽는 것은 약간 엉망 일 수 있습니다.이것은 그들이 당신의 학습을 가능하게하는 정도에 관한 것입니다.위의 어느 곳에서도 강의를 언급하지 않았 음을 알 수 있습니다.코스에 따라 맞거나 놓칠 수 있습니다.많은 강의는 수준이 너무 높아서 완전히 건너 뛰는 것이 현명 할 것입니다.일부 강의 또는 과제에는 유용한 링크가 포함됩니다.그러나 대부분의 학습은 자체 연구 (일명 인터넷 검색)를 통해 GT 환경 외부에서 이루어집니다.반환 관점에서이 프로그램에서 얻는 지식은 단순히 학위를 취득하는 것이 아니라 자료를 배우는 데 투입 한 노력에 크게 의존합니다.

대부분의 사람들이 대학원 프로그램에 등록하는 주된 이유 인 취업 기회로 이동합니다. 데이터 분석 기술에 대한 수요가 급증하고 있다는 점을 반복 할 필요가 없습니다. 모든 산업에서 기술에 대한 의존도가 높아짐에 따라 컴퓨터 과학과 통계 기술이 시장성이없는 미래는 보이지 않습니다. 인공 지능은 자동화 된 각 프로세스에 설치 및 지속적인 유지 관리가 필요하기 때문에 이러한 기술에 대한 우리의 의존도를 높일뿐입니다. 이 프로그램에는 너무 많은 유형의 개인이 등록되어 있기 때문에이 학위가 원하는 직업을 얻는 데 얼마나 도움이 될 것인지 말하기는 어렵습니다. 제 생각에는 OMSA 학위와 0 년의 업무 경험으로 졸업하는 학생은 3 ~ 5 년의 경력을 원하는 일반적인 분석 채용 공고에 적합합니다. 예를 들어 데이터 분석가, 선임 데이터 분석가, 비즈니스 인텔리전스 엔지니어, 주니어 데이터 과학자 및 데이터 과학 동료가 있습니다. 그러나 이러한 직책 중 하나를 최고의 회사 또는 더 고위 분석 역할에서 원하는 경우 추가 업무 경험이나 개인 프로젝트를 통해 학위를 늘려야합니다.

3 ~ 5 년의 추가 데이터 분석 경험을 추가하는 것이이 프로그램의 비용에 해당하는 가치가 있는지 여부는 귀하가 결정합니다.다음 기준 중 하나 이상에 해당하는 사람들에게이 프로그램이 가장 가치 있다고 생각합니다.

경력을 데이터 분석으로 전환하려는 정량적 / 프로그래밍 배경이있는 숙련 된 전문가
경험이 풍부한해석학3 ~ 5 년까지 전문적인 발전을 가속화하려는 전문가
학습을 용이하게하기위한 구조가 필요한 학생
끈기가 필요한 복잡한 문제를 두려워하지 않는 학생
특정 데이터 분석 또는 데이터 과학 주제 (예 : 인공 지능, 기계 학습 엔지니어링, 데이터 엔지니어링, 데이터 시각화 등)를 전문적으로 다루고 싶지 않은 숙련 된 전문가

* (학점당 275 시간 * 36 학점) + ((194 학점 + 학기당 107 학점) * 9 학기)
** (주당 3 학점당 12 시간 * 학기당 15 주) * (36/3 3 학점 블록)

이 프로그램을 어떻게 준비 할 수 있습니까?

이 프로그램에 지원하고 등록하기로 결정한 경우 자료에 대한 준비가되었는지 확인해야합니다.입학요구 사항학생들이이 프로그램을 준비 할 때 차선책입니다.이 프로그램에서 성공하려면 데이터 분석, 수학 및 컴퓨터 과학 전반에 걸쳐 일정 수준의 경험을 쌓는 것이 좋습니다.

데이터 분석 주제 및 도구익숙한와:

SQL
뛰어나다
데이터 시각화
데이터 정리
데이터 분석

수학 측면에서 당신은편안다음과 함께 :

미적분-적분, 미분, 함수, 한계
통계 — 가설 검정, p- 값, 신뢰 구간, 샘플링
확률-분포, 오류
선형 대수 행렬, 행렬 연산, 벡터, 연립 방정식

컴퓨터 과학에 관한 한,이 프로그램에 앞서 두 개의 엄격한 학부 컴퓨터 과학 과정을 이수해야합니다.엄격함은 3 학점당 주당 10 시간 이상이 필요하다는 것을 의미합니다.적어도 하나의 객체 지향 프로그래밍 언어를 사용하는 중급 프로그래머 여야합니다.여기에는 코드 내 문제 디버깅 및 진단 경험이 포함됩니다.웹 개발에 대한 지식도 도움이 될 것입니다.무엇보다도 첫 번째 시도에서 거의 옳지 않은 어려운 문제를 해결하기위한 만족할 줄 모르는 욕구가 필요합니다.

추가 질문이나 의견이 있으면 언제든지밖.저는 항상 데이터 분석이나 금융에 대해 생각하고 있습니다.

~데이터 제너럴리스트

Loading Multiple Well Log LAS Files Using Python -번역

2021년 2월 16일 by hyungseok

Python을 사용하여 여러 Well Log LAS 파일로드

Pandas 데이터 프레임에 여러 LAS 파일 추가

Andy McDonald

1 day ago·6 min read

Log ASCII Standard (LAS) 파일은 일반적인 Oil & amp;유정 로그 데이터를 저장하고 전송하기위한 가스 산업 형식.내부에 포함 된 데이터는 지하를 분석하고 이해하고 잠재적 인 탄화수소 매장량을 식별하는 데 사용됩니다.이전 기사에서 :웰 로그 데이터로드 및 표시, LASIO 라이브러리를 사용하여 단일 LAS 파일을로드하는 방법을 다루었습니다.

이 기사에서는 다음과 같이 확장합니다. 여러 개의 las 파일을 하위 폴더에서 단일로로드하는 방법을 보여줍니다.팬더 데이터 프레임.이렇게하면 여러 우물의 데이터로 작업하고 matplotlib를 사용하여 데이터를 빠르게 시각화 할 수 있습니다.또한 기계 학습 알고리즘을 실행하기에 적합한 단일 형식으로 데이터를 준비 할 수 있습니다.

이 기사는 내 Python & amp;Petrophysics 시리즈.전체 시리즈의 세부 정보를 찾을 수 있습니다.여기.다음 링크의 GitHub 저장소에서 내 Jupyter 노트북 및 데이터 세트를 찾을 수도 있습니다.

andymcdgeo / Petrophysics-Python- 시리즈

이 Jupyter 노트북 시리즈는 Python 및 Petrophysical 데이터 작업의 다양한 측면을 안내합니다.ㅏ…

github.com

이 기사를 따르기 위해 Jupyter Notebook은 위의 링크에서 찾을 수 있으며이 기사의 데이터 파일은데이터 하위 폴더Python & amp;Petrophysics 저장소.

이 기사에 사용 된 데이터는 공개적으로 액세스 할 수있는네덜란드 NLOG 네덜란드 석유 및 가스 포털.

라이브러리 설정

첫 번째 단계는 우리가 작업 할 도서관을 가져 오는 것입니다.우리는 5 개의 라이브러리를 사용할 것입니다.판다,matplotlib,Seaborn,os, 및Lasio.

Pandas, os 및 lasio는 데이터를로드하고 저장하는 데 사용되는 반면 matplotlib 및 seaborn을 사용하면 우물의 내용을 시각화 할 수 있습니다.

다음으로 모든 las 파일 이름을 저장할 빈 목록을 설정합니다.

둘째,이 예에서는 Data / 15-LASFiles /라는 하위 폴더에 파일이 저장되어 있습니다.이것은 파일이 저장된 위치에 따라 변경됩니다.

이제 우리는os.listdir메서드를 사용하고 파일 경로를 전달합니다.이 코드를 실행하면 데이터 폴더에있는 모든 파일 목록을 볼 수 있습니다.

이 코드에서 폴더의 내용 목록을 얻습니다.

[ 'L05B03_comp.las',
'L0507_comp.las',
'L0506_comp.las',
'L0509_comp.las',
'WLC_PETRO_COMPUTED_1_INF_1.ASC']

Reading the LAS Files

위에서 볼 수 있듯이 4 개의 LAS 파일과 1 개의 ASC 파일을 반환했습니다.LAS 파일에만 관심이 있으므로 각 파일을 반복하고 확장자가 .las인지 확인해야합니다.또한 확장자가 대문자 인 경우 (.las 대신 .LAS)를 포착하려면 다음을 호출해야합니다..보다 낮은()파일 확장자 문자열을 소문자로 변환합니다.

파일이 .las로 끝나는지를 확인한 후 파일 이름에 경로 (‘Data / 15-LASFiles /’)를 추가 할 수 있습니다.이는 lasio가 파일을 올바르게 선택하는 데 필요합니다.파일 이름 만 전달하면 독자는 스크립트 또는 노트북과 동일한 디렉토리를보고 결과적으로 실패합니다.

우리가 전화 할 때las_file_list4 개의 LAS 파일 각각에 대한 전체 경로를 볼 수 있습니다.

[ 'Data / 15-LASFiles / L05B03_comp.las',
'Data / 15-LASFiles / L0507_comp.las',
'Data / 15-LASFiles / L0506_comp.las',
'Data / 15-LASFiles / L0509_comp.las']

Appending Individual LAS Files to a Pandas Dataframe

데이터 프레임에 데이터를 연결 및 / 또는 추가하는 방법에는 여러 가지가 있습니다.이 기사에서는 함께 연결할 데이터 프레임 목록을 만드는 간단한 방법을 사용합니다.

먼저 다음을 사용하여 빈 목록을 만듭니다.df_list = [].그런 다음 두 번째로 las_file_list를 반복하고 파일을 읽고 데이터 프레임으로 변환합니다.

데이터의 출처를 아는 것이 유용합니다.이 정보를 보관하지 않으면 출처에 대한 정보가없는 데이터로 가득 찬 데이터 프레임이됩니다.이를 위해 새 열을 만들고 웰 이름 값을 할당 할 수 있습니다.lasdf [ 'WELL'] = las.well.WELL.value.이렇게하면 나중에 데이터를 쉽게 사용할 수 있습니다.

또한 lasio가 데이터 프레임 인덱스를 파일의 깊이 값으로 설정하면 다음과 같은 추가 열을 만들 수 있습니다.깊이.

이제 목록 객체를 연결하여 LAS 파일의 모든 데이터를 포함하는 작업 데이터 프레임을 만듭니다.

작동중인 데이터 프레임을 호출하면 동일한 데이터 프레임에있는 여러 웰의 데이터가 있음을 알 수 있습니다.

또한 웰 열 내의 고유 한 값을 확인하여 모든 웰이로드되었는지 확인할 수 있습니다.

고유 한 웰 이름의 배열을 반환합니다.


배열 ([ 'L05-B-03', 'L05-07', 'L05-06', 'L05-B-01'], dtype = object)

LAS 파일에 다른 곡선 니모닉이 포함되어있는 경우 (대개 경우) 데이터 프레임에 아직없는 각각의 새 니모닉에 대해 새 열이 생성됩니다.

빠른 데이터 시각화 만들기

이제 데이터를 pandas 데이터 프레임 객체에로드 했으므로 간단하고 빠른 다중 플롯을 만들어 데이터에 대한 통찰력을 얻을 수 있습니다.교차 플롯 / 산점도, 상자 플롯 및 KDE (Kernel Density Estimate) 플롯을 사용하여이를 수행합니다.

이를 시작하려면 먼저 다음을 사용하여 웰 이름별로 데이터 프레임을 그룹화해야합니다.

웰당 교차도 / 산점도

교차 도표 (산점도라고도 함)는 한 변수를 다른 변수에 대해 도표화하는 데 사용됩니다.이 예에서는 중성자 다공성 대 벌크 밀도 교차 플롯을 사용합니다. 이것은 페트로 피학에서 사용되는 매우 일반적인 플롯입니다.

앞서 언급 한 유사한 코드를 사용하여웰 로그 데이터를 사용한 탐색 데이터 분석기사에서는 데이터 프레임의 각 그룹을 반복하고 중성자 다공성 (NPHI) 대 벌크 밀도 (RHOB)의 교차 플롯 (분산도)을 생성 할 수 있습니다.

이렇게하면 4 개의 서브 플롯이있는 다음 이미지가 생성됩니다.

웰당 감마선의 상자 그림

다음으로 모든 우물에서 나온 감마선 큐브의 상자 그림을 표시합니다.박스 플롯은 데이터의 범위 (최소에서 최대까지), 사 분위수 및 데이터의 중앙값을 보여줍니다.

이것은 seaborn 라이브러리에서 한 줄의 코드를 사용하여 달성 할 수 있습니다.인수에서 데이터에 대한 workingdf 데이터 프레임을 전달하고 색조에 대한 WELL 열을 전달할 수 있습니다.후자는 데이터를 각각 고유 한 색상을 가진 개별 상자로 분할합니다.

히스토그램 (커널 밀도 추정치)

마지막으로 히스토그램과 유사한 Kernel Density Estimate 플롯을 사용하여 데이터 프레임에서 곡선 값의 분포를 볼 수 있습니다.

다시 말하지만,이 예제는 groupby 함수를 적용하는 다른 방법을 보여줍니다.x 및 y 제한을 설정하기 위해 matplotlib 함수를 호출하여 플롯을 정리할 수 있습니다.

요약

이 기사에서는 디렉토리에서 .las 확장자를 가진 모든 파일을 검색하여 여러 LAS 파일을로드하고 단일 파일로 연결하는 방법에 대해 설명했습니다.팬더 데이터 프레임.데이터 프레임에이 데이터가 있으면 matplotlib 및 seaborn을 쉽게 호출하여 데이터 시각화를 빠르고 쉽게 이해할 수 있습니다.

읽어 주셔서 감사합니다!

이 기사가 유용하다고 생각되면 Python의 다양한 측면과 로그 데이터를 살펴 보는 다른 기사를 자유롭게 확인하십시오.이 기사 및 기타에서 사용 된 내 코드는GitHub.

연락하고 싶다면 나를 찾을 수 있습니다.LinkedIn 또는 내웹 사이트.

파이썬에 대해 더 많이 배우고 데이터 또는 페트로 피학을 잘 기록하고 싶으십니까?나를 따라와매질.

Using the right tools to visualize data -번역

2021년 2월 14일 by hyungseok

데이터 시각화

올바른 도구를 사용하여 데이터 시각화

Tableau, ggplot2 & amp;Seaborn

Mubarak Ganiyu

데이터 시각화와 관련하여 대부분의 사람들은 무엇을해야하는지에 대한 직접적인 아이디어를 가지고 있습니다.산점도를 사용하여 두 변수 간의 관계를 표시합니다.상자 그림은 변수에서 개별 요소의 분산을 비교하는 데 사용됩니다.원형 차트를 사용하여 여러 클래스가 변수에 전체적으로 기여하는 방식을 나타낼 수 있습니다.시계열도는 누군가 또는 조직에 의해 시간에 따른 진행 상황을 표시하는 데 사용할 수 있습니다.

단단한 것 말고나는어떤 차트를 사용할지 결정하기 위해 소프트웨어 패키지를 사용하여 그래프를 만들고 차트를 개발하는 것이 중요하며이를 가능하게하는 데 사용할 수있는 여러 리소스가 있습니다.R을 통한 ggplot2, python을 통한 seaborn, Tableau, PowerBI, MS Excel은 차트를 작성하는 데 사용되는 유명한 플랫폼 중 일부입니다.

이 기사에서는 Tableau, seaborn 및 ggplot2의 세 가지 패키지 / 플랫폼에서 차트를 작성하는 데 필요한 프로세스에 초점을 맞출 것입니다.활용 된 데이터 세트는 널리 사용되는 홍채 데이터 세트입니다.홍채 데이터 셋에는 5 개의 변수가 있습니다.그중 4 개는 꽃잎 길이, 꽃잎 너비, 꽃받침 길이 및 꽃받침 너비의 연속 변수입니다.마지막 하나는 종이라는 범주 형 변수입니다.setosa, virginica 및 versicolor의 세 가지 클래스가 있습니다.

세 가지 플랫폼 모두에서 동일한 차트를 작성함으로써 차트의 품질을 비교하고 데이터 시각화 프로젝트에서 작업 할 때 사용할 차트를 결정할 수 있습니다.생성 된 두 차트는 다음과 같습니다.

꽃받침 너비와 꽃받침 길이 간의 관계를 비교하는 산점도입니다.
여러 종에 걸쳐 네 가지 변수의 평균 값을 비교하는 막대 차트입니다.

홍채 데이터 세트는 R-studio와 Jupyter 노트북 모두에서 기성품입니다.따라서 Tableau에서 사용하기 위해 쉽게 내보낼 수있었습니다.

Tableau

Tableau는 데이터 시각화를 가능한 한 쉽게 만들어주는 플랫폼입니다.Python 및 R에 비해 큰 장점은 데이터 세트를로드하거나 그래프를 생성하는 데 코드가 필요하지 않다는 사실입니다.끌어서 놓기 기능으로 인해 사용자는 변수를 조정하여 사용자에게 정보를 효과적으로 표시하는 차트를 작성할 수 있습니다.또한 차트를 아름답게하고 청중의 관심을 끌 수있는 다른 기능도 있습니다.

실행중인 Tableau의 좋은 예입니다.차트는 1 분 30 초 이내에 작성 및 설계되었습니다.

Tableau의 사용하기 쉬운 기능은 위의 비디오에서 확인할 수 있습니다.초보자를위한 Tableau 사용 기술을 습득하는 방법에 대한 가이드 역할을 할 수있는 책은 Ben Jones의Tableau와 데이터 통신 : 데이터 시각화 설계, 개발 및 제공.Tableau를 사용하여 작성된 다른 차트는 아래에서 볼 수 있습니다.

ggplot2

ggplot2는 R-studio에서 제공하는 놀라운 패키지입니다.Tableau와 달리 차트를 작성하려면 사용자가 패키지를 가져와야합니다.약간의 코딩이 필요하지만 코딩 구문은 매우 간단합니다.ggplot2로 간단한 차트를 작성하려면 두 가지 간단한 단계가 필요합니다.

첫 번째 단계는 tidyverse 패키지를로드하는 것입니다.ggplot2 패키지는 tidyverse 패키지에서 제공하는 많은 패키지 중 하나입니다.tidyverse 패키지를로드하면 사용자는 그래프를 디자인하는 동안 다른 패키지의 기능에 액세스 할 수 있습니다.tidyverse를로드하는 코드는 아래에서 볼 수 있습니다.

install.packages ( "tidyverse")
도서관 (tidyverse)

두 번째 단계는 코딩 구문을 사용하여 그래프를 생성하는 것입니다.코딩 구문은 아래에서 볼 수 있습니다.ggplot ()은 ggplot2 패키지를 호출하고 사용할 데이터를 식별합니다.geom_point ()는 점이있는 산점도가 원하는 그래프임을 나타냅니다.geom_point () 내에서 aes ()를 사용하면 x 및 y 축에 표시 할 변수를 쉽게 매핑 할 수있을뿐만 아니라 종에 따라 그룹화 할 수 있습니다.labs ()를 사용하여 그래프의 제목을 추가하고 x 및 y 축 모두에 레이블을 지정할 수 있습니다.theme_classic ()을 사용하여 테마를 클래식으로 설정하면 사용자가 테마 설정을 제어 할 수 있습니다.

사용자가 ggplot2를 통해 위에서 만든 것과 다른 차트를 그리는 데 관심이 있다면링크사용자를위한 가이드 역할을 할 수 있습니다.

ggplot (데이터 = df_iris) +
geom_point (aes (x = sepal_width, y = sepal_length, color = species)) +
labs (title = "Sepal 길이 vs Sepal 너비", x = "Sepal 너비", y = "Sepal 길이") +
theme_classic ()

Seaborn

Seaborn은 python에서 제공하는 패키지입니다.이는 그래프를 아름답게하기 위해 Python에서 제공하는 또 다른 데이터 시각화 패키지 인 matplotlib를 개선하는 역할을합니다.Seaborn은 사용자가 패키지를로드해야하고 원하는 플롯을 얻기 위해 코딩 구문을 사용한다는 점에서 ggplot2와 동일하게 작동합니다.다음은 seaborn 패키지 및 그래프를 쉽게 디자인 할 수있는 기타 유용한 패키지를로드하는 코드입니다.

seaborn을 sns로 가져옵니다.sns.set_theme (style = "dark")
% matplotlib 인라인
matplotlib.pyplot을 plt로 가져 오기

패키지를로드 한 후 다음 단계는 올바른 기능을 사용하여 차트를 그리는 것입니다.plt.figure ()를 사용하여 플롯의 크기를 결정할 수 있습니다.sns.barplot ()은 사용할 데이터 세트뿐 아니라 x 및 y 축에 배치 할 변수를받습니다.ggplot2와 마찬가지로 sns.barplot () 함수 내에서 플롯 모양에 대한 추가 변경이 이루어집니다.plt.title (), plt.xlabel () 및 plt.ylabel ()은 플롯에 레이블을 지정하는 데 사용됩니다.

사용자가 seaborn을 통해 위의 것과 다른 차트를 그리는 데 관심이 있다면링크사용자를위한 가이드 역할을 할 수 있습니다.

plt.figure (figsize = (20,12))
sns.barplot (x = "종", y = "숫자", 데이터 = n_iris2, 색상 = "특징", 팔레트 = "깊이")
plt.title ( "종별 특성의 평균 값에 대한 막대 차트", fontsize = 20)
plt.xlabel ( "종", fontsize = 12)
plt.ylabel ( "평균값", fontsize = 12)

Conclusion

위에서 설명한 세 가지 플랫폼은 모두 그래프를 디자인하고 구축하는 데 훌륭합니다.Tableau는 코딩에 관심이없는 사람이 차트를 쉽게 생성 할 수있는 좋은 방법입니다.ggplot2 및 seaborn은 사용자에게 그래프 모양을 제어 할 수있는 개방형 접근 방식을 제공하는 코딩 플랫폼입니다.데이터 시각화에 관해서는 상상력이 유일한 한계입니다.

다음은 데이터 시각화에 대한 권장 문서 목록입니다.

읽어 주셔서 감사합니다!

Elevate Your Data Science Abilities: Learn Resourcefulness -번역

2021년 2월 12일 by hyungseok

데이터 과학 능력 향상 : 수완 배우기

데이터 과학자로서의 효율성을 높일 수있는 소프트 스킬을 탐구하는이 새로운 시리즈에 참여하세요.

Nick Cox

What is Resourcefulness?

코코넛 문어는 아마도 세계에서 가장 수완이 풍부한 동물 중 하나 일 것입니다.Octopi는 일반적으로 지능으로 유명하지만 코코넛 문어는 한 가지 놀라운 특성으로 인해 나머지 문어보다 두드러집니다. 종종 코코넛과 조개 껍질을 가지고 다니며 장갑 보호용으로 사용됩니다.

일반적으로 길이가 3 ~ 6 인치이고 독성이 없기 때문에 다른 해양 동물의 점심 식사를 피하려면 보호가 필수입니다.하지만 그게 다가 아닙니다.이 수완이 풍부한 해저 생물은 걷기로 더 잘 알려진 이족 보행이 가능합니다.놀라운 이야기!

다시 될에스ourceful은어려움을 극복 할 수있는 빠르고 영리한 방법을 찾을 수있는 능력.당신이 가지고있는 자원으로 문제 해결자가되는 것입니다.그리고 데이터 과학에서 우리는 작업을 완료 할 때 해결해야 할 문제가 부족하지 않습니다.

저는 뉴질랜드에서 자랐고 우리는 8 번 펜싱 와이어를 사용하여 무엇이든 만들거나 고칠 수 있다는 표현을 가지고 있습니다.우리는 또한 이것을 키위의 독창성이라고 부르는데, 이는 문제를 해결하기 위해 옆으로 생각하는 능력과 할 수있는 태도입니다.

뉴질랜드에서 우리는 수완이 풍부한 사람들이라는 자부심을 가지고 있지만 저는이 기술을 가지고 태어나지 않았습니다.나는 그것을 배워야했다.그것은 그것을 개발하기 위해 신중한 연습과 관심이 필요한 기술입니다.그러나 그렇게 할 때 그것은 당신과 당신의 고용주에게 무수한 혜택을 가져다 줄 기술입니다.

수완의 이점은 무엇입니까?

수완이 풍부한 사람들은 개방적입니다.그들은 새로운 아이디어, 의견 및 도전에 열려 있습니다.수완이 풍부한 사람들은 열렬한 독자이자 탐험가이며 항상 배우고 있습니다.
수완이 풍부한 사람들은 자신감이 있습니다.그들은 자신이 아는 것과 모르는 것에 똑같이 확신합니다.수완이 풍부한 사람들은 감히 필요한 것을 요구합니다.
수완이 풍부한 사람들은 창의적입니다.여기에서 8 번 와이어의 개념과 독창성이 가장 많이 발휘됩니다.수완이 풍부한 사람들은 새롭고 다른 솔루션에 열려 있습니다.그들은 문제가 항상 그래 왔기 때문에 한 가지 방법으로 해결되어야한다고 믿지 않습니다.
수완이 풍부한 사람들은 능동적입니다.그들은 손에 앉아서 해결책이 도착할 때까지 기다리지 않을 것입니다.수완이 풍부한 사람들이 일어 서서 앞장서 서 같은 생각을 가진 동료를 모아 여정에 동참 할 것입니다.
수완이 풍부한 사람들은 끈질 기다 :그들은 문제를 해결하는 방법이 많고 때로는 첫 번째 시도에서 문제가 해결되지 않을 것이라는 것을 알고 있습니다.그러나 그들은 끝날 때까지 계속 노력할 것입니다.
수완이 풍부한 사람들은 문제 해결 자입니다.새로운 문제에 직면했을 때 수완이 풍부한 사람들은 과거의 배운 내용을 적용하고 최상의 솔루션을 찾기 위해 새로운 지식을 모색 할 수있는 기술을 갖게됩니다.
수완이 풍부한 사람들은 적응력이 있습니다.그들은 모든 문제에 대한 단일 접근 방식에 얽매이지 않으며 다른 방법을 찾기 위해 동료의 조언을 기꺼이 구할 것입니다.사실 그들은 그렇게 할 때 성취감을 느낍니다.

수완이되는 방법은?

핵심은 수완이 육체적 행동에 관한 것입니다.수완을 개발하고 입증 할 수있는 몇 가지 확실한 방법은 다음과 같습니다.

연구 기술 연마 :제 생각에 수완은 필요한 정보를 어디서 어떻게 찾을 수 있는지 아는 것입니다.필요할 때 조사 할 수있는 유용한 리소스 디렉토리를 만듭니다.데이터 과학자는 Google 검색, Git Hub, Medium, Stack Overflow 등 많은 리소스를 무료로 사용할 수 있습니다.종종 당신은 바퀴를 재발 명 할 필요가 없습니다. 해결책이나 최소한 당신을 도울 수있는 정보가 이미 사용 가능하기 때문입니다.
네트워크 활용 :강력한 네트워크를 구축하는 것이 얼마나 중요한지 아무리 강조해도 지나치지 않습니다.이전 동료, 비즈니스 파트너 및 업계 전문가에게 도움을 요청하는 것을 두려워하지 마십시오.현재 문제를 해결하는 데 도움이되는 정보를 얻는 것 외에도 향후 문제를 해결하기 위해 툴킷에 추가 할 새로운 기술을 배울 수도 있습니다.
지속적으로 새로운 기술 개발 :사용 가능한 리소스를 추가하는 것보다 수완이되는 더 좋은 방법은 없습니다.데이터 과학에는 항상 새로운 도구, 기술 및 학습 방법이 있습니다.최신 상태로 유지하십시오.
당신의 강점과 약점을 아십시오 :이를 더 잘 이해할수록 문제를 해결하는 데 필요한 리소스와 지식이 이미 있는지 또는 연구에 뛰어 들거나 네트워크에 연락해야하는지 여부를 더 빨리 결정할 수 있습니다.
생각하고 전략을 세울 시간을주십시오.문제 해결을위한 전략, 필요한 자원, 자원을 구할 수있는 곳을 결정하기 위해 잠시 멈 추면 끝없는 배당금이 지급됩니다.
이미 가지고있는 것을 더 잘 활용하십시오.수완의 핵심은 이미 가지고있는 리소스와이를 가장 잘 사용하는 방법을 이해하는 것입니다.다른 곳에서 리소스를 찾는 것보다 이미 가지고있는 것을 사용하는 것이 종종 더 빠르고 쉽습니다.그러나 중요한 것은 필요한 것이 없을 때 신속하게 식별하는 것입니다.

기술이되는 것 외에도 수완은 사고 방식이자 태도입니다.수완이 되려면 행동을 취하기위한 의식적인 노력이 필요합니다.

끝 맺는 말

원하는 것을 달성하기 위해 보유하거나 보유하지 않은 자원에 의존 할 필요가 없습니다.수완이되는 사람이 될 수있는 능력은 이미 가지고있는 것을 사용하는 방법과 가지고 있지 않지만 필요한 것을 얻는 방법에 따라 다릅니다.

Tony Robbins가 말했듯이 자원 부족이 아니라 수완 부족이 당신을 막습니다.

내 수완이 내 경력과 인생에서 성공으로 이끈 것은 의심의 여지가 없습니다.사실 저는 문제 해결의 도전을 즐기고 해결책을 찾는 것을 즐깁니다.

당신도 수완이 풍부한 사람이된다면, 더 나은 생각과 더 많은 창의력으로 주변 사람들에게 영향을 미칠 것입니다.

내 시리즈도 확인하세요예제로 Python 데이터 분석 배우기: