-----------------------------------------------------------------
Week 4: Managing your data
제4주차: 획득 자료 관리
- How to set up databases to manage your data
수집한 자료의 관리를 위한 데이터 베이스 구축하기
- Exploring the life cycle of stars in our Galaxy
우리 은하내 별의 일생 탐구
-----------------------------------------------------------------
1강: 대용량 자료관리(입문)
Lesson 1. Managing your Big Data / 한글자막 / 영문자막
-----------------------------------------------------------------
2강: 별의 탄생과 죽음의 과정
Lesson 2: The Lifecycle of Stars / 한글자막
-----------------------------------------------------------------
3강: 데이터베이스 만들기
Lesson 3: Setting up your own database / 한글자막
-----------------------------------------------------------------
4강: 성단 탐구
Lesson 4: Exploring a Star Cluster / 한글자막 / 영문자막
-----------------------------------------------------------------
Lesson 4: Exploring a Star Cluster / 한글자막 / 영문자막
-----------------------------------------------------------------
4주 요약
Module Summary / 한글자막
-----------------------------------------------------------------
[00:03] 제 이름은 에밀리 페트로프 입니다. (Emily Petroff, http://www.ebpetroff.com/) 천체물리학 박사이죠. 지금은 네델란드 전파천문학 연구소 아스트론(ASTRON)에서 일하고 있어요. 이 곳은 네델란드 교외에 위치하고 있죠. 제 시간의 절반은 여기에서 보내고 나머지 절반은 암스텔담의 천문학 연구소에서 보냅니다.
[00:25] [당신의 연구분야에 대해 말해 주세요]
저는 주로 펄사(pulsars)를 연구하는데 전파를 빠르게 내뿜는 최근에 발견된 천체입니다. 펄사(Pulsars)라는 것은, 그러니까 여러분이 들어봤을 지도 모르는데 아주 빠르게 회전하는 중성자별(neutron star)입니다. 펄사는 밀도가 아주 높은데 초신성(supernova)이 폭발하고 남은 거죠. 우리가 아는 어떤 물질보다 밀도가 높습니다. 게다가 아주 빠른 속도로 돌고 있어요. 그리고 양극에서 '제트(Jets)'가 뿜어나옵니다. 그리고 그 '제트'가 마치 등대처럼 빙글빙글 돕니다. 전파 망원경으로 보면 그 제트가 돌고 있는 것을 진짜로 볼 수 있죠. 제트가 우리 시선 방향 앞을 지날 때마다 반짝이는 것 처럼 보이는거죠. 마치 등대 처럼 말이죠. 하지만 이 전파 망원경으로 찾는 것이 또 있는데 아주 강력한 전파 섬광입니다. 고속 전파 폭발(fast radio burst)이라고 부릅니다. 아직 우리는 그것이 어디로부터 나오는지 확실히는 모릅니다. 마치 펄사에서 봤던 것처럼 간헐적이긴 한데 아주 드믈거나 어쩌면 정말 한번 뿐이었는지 모르죠. 이 전파신호는 우리은하 최외곽에서 온다고 추측합니다. 아마 엄청난 폭발일지도 모르고 우주 저편 어딘가에 있는 초강력 원조(progenitors)일지도 모릅니다.
[참고]
1. Progenitors of type Ia supernovae
https://arxiv.org/abs/1204.1155
https://arxiv.org/abs/1609.03639
https://arxiv.org/abs/astro-ph/9903264
2. Fast Radio Burst, https://en.wikipedia.org/wiki/Fast_radio_burst
[01:35] [엄청난 양의 관측자료로 인한 어려움은 뭔가요?]
내 생각에는 첫번째 어려움은 그것들을 처리하는 일입니다. 왜냐면 우리는 가능한 빠르게 그 신호들을 찾아내고 싶어요. 그러기 위해 빠르게 처리해야 하는 것을 넘어서 실시간으로 다루고 싶습니다. 실제로 요즘은 그렇게 하고 있어요. 실시간 처리는 정말 엄청나게 큰 넘어야할 산 이었습니다. 근본적으로 자료를 분해하여 작게 만드는 방법을 택한 것인데 관측 자료를 한개의 큰 파일에 담아 처리하기보다 망원경에서부터 자료를 잘게 나눴죠. 하지만 여전히 원하는 답을 찾아내기 위해 엄청나게 많은 자료 조각들을 빠르게 한데 모아야 하는 과제가 있죠. 하지만 급선무는 이 모든 자료를 저장하는 겁니다. 파크스 전파 천문대(Parkes Observatory)에서 전하늘 탐사관측을 실시하면 보통 하루 24시간 내내 몇주 연속으로 이어집니다.
* Parkes Observatory, https://en.wikipedia.org/wiki/Parkes_Observatory
이때 생성되는 관측 자료 양이 마치 수분만에 고화질 영화 한편에 꼴에 해당하죠. 그러니 분당 수 기가 바이트가 망원경에서 나오는 셈이죠. 그럼 우리는 그 자료를 전부 어딘가에 저장해야 합니다. 나중에 어딘지 모르지만 저장해둔 곳에 접근하여 빠르게 처리하고 우리가 원하는 것을 찾아내야 합니다. 이것이 바로 우리가 직면하고 있는 거대한 어려움 입니다. 단지 담아두는 것으로 끝나지 않겠죠? 수집한 관측자료에서 우리가 원하는 것을 효과적으로 찾아내는 방법이 있어야 겠죠?
[02:57] [(관측자료의 전처리)대량의 자료처리를 하면서 생긴 문제를 어떻게 해결 했나요?]
우리가 망원경에서 한발짝 앞서 취했던 방법은 기본적으로 그래픽 처리장치(GPU, graphic processing unit)의 계산능력을 활용한 겁니다. 우리가 필요한 처리를 일렬로 그러니까 순서대로 작업하는 CPU에서 수행하는 대신 GPU의 장점을 활용하기 시작한 것이죠. 실제로 GPU는 병렬처리가 가능해서 우리의 일을 아주 효과적으로 해줍니다.
* nVidia GPU High-Performance Computing 참조.
http://www.nvidia.com/object/sc10_cuda_tutorial.html
주파수(스펙트럼)변환같이 특히 반복적인 작업에 매우 적합하다. 이 경우 병렬처리를 하는 GPU에 다수의 작업을 동시에 할당하여 속도를 올릴 수 있습니다. GPU의 병렬처리 능력 덕분에 거의 실시간에 가까운 처리속도를 낼 수 있게됐죠. 따라서 우리는 망원경에서 나오는 자료를 16초 간격으로 끊어 처리하게 되었는데 자료를 받아들인 즉시 폭발신호가 있는지 없는지 알아낼 정보를 얻게 되었습니다.
[03:52] [자료처리 요령이나 도구를 추천해 주시겠어요?]
'시각화'의 장점을 활용하세요. 가령 어떤 숫자들을 보고 있는데 x, y, z 로 짝지워진 숫자라면 아마 3차원 육면체나 뭐 그런 정보라고 이해하겠죠. 하지만 자료의 일부를 떼서 시각화 해보면 이해하는데 확실히 도움이 됩니다. 이 숫자들이 실제로 어떤 모습이 될지 눈으로 보는거죠. 혹은 숫자를 도표로 찍어 놓으면 실제로 무슨 의미인지 보일 겁니다. 그리고 파이썬(Python)은 굉장한 도구 입니다. 자료를 개략적으로 살펴보고 싶은데 자료에 잡음이 심하다던가 자료 일부가 좀 어색하다던가 다른 자료와 비교해서 차이를 알고 싶다던가 할 때가 있죠. 파이썬을 쓰면 정말 쉽게 할 수 있는 일입니다. 그리고 훌륭한 도표를 그릴 수 있는데 아주 직관적입니다. 없는게 없죠. (물론 본격 연구에는 전문 소프트웨어 패키지를 쓴다.) 인간의 뇌는 도표로부터 뭔가 특이한 것을 찝어내는 독특한 능력이 있다고 생각해요. (HR-Diagram을 보라! 그냥 색과 밝기를 도표에 나타냈을 뿐인데 현대 천체물리학을 모두 담고 있지 않은가!) 코드(프로그램)이 여러분이 원하는 것을 찾아줄 수 있지만 여러분이 뭔가 의구심이 든다면 직접 도식화 해보세요. 뭔가 혼란 스럽거나 그런때 그것에 대비한 도표를 그려보면 즉각 두 그림 사이에 차이를 알아챌 수 있을 겁니다. 그럼으로써 여러분의 자료에 무엇이 담겨 있는지 알아 채는데 실질적 도움이 될 겁니다. 코드(프로그램)이 여러분의 자료에서 뭔가 찾아내 알려주진 못하죠.
[05:00] [당신의 연구에서 가장 좋았던 것을 말해 주세요]
제가하는 연구중 가장 좋았던 것은 사실 대부분 연구가 그렇지만, 나 스스로 의문을 제기하고 그에대한 답을 찾아가는 겁니다. 자료는 다양한 방법으로 수집되죠. 그리고 만족할 때까지 끝없이 질문을 던집니다. 내가 보기에 이런것 같은데 라던가, 내가 찾던게 이건가 따위의 질문 말입니다. 자료를 통해 들여다보기 전에는 실제로 원하는 답을 절대 구할 수 없습니다. 처리 해야할 대량의 자료를 맞닥트리면 주눅들기 마련이죠. 박사과정 학생일 때 예상했던 것보다 더 많은 양의 도표를 살펴봐야 했었을 겁니다. 하지만 동시에 이 모든 자료를 살펴보고 아주 놀라운 것을 발견하게 됐는데 의문에 답이 되기도 하고 더 많은 질문의 길로 인도 해줬죠. 심지어 찾고자 하는 것이 아니었더라도 살펴봐야할 자료를 충분히 가졌다는 점은 아주 흥분되는 일입니다. 그리고 예상치 못한 것을 알 수 있죠. 이 고속 전파 폭발이 어디에서 오는지 그리고 그것의 근원이 어디에서 기원됐는지 사람들이 그 자료를 어떤 방식으로든 살펴보고 감탄 합니다.
* '와우' 신호, https://ko.wikipedia.org/wiki/Wow!_%EC%8B%A0%ED%98%B8
그러니까 우리가 펄사를 찾고 있었지만 펄사 만큼이나 정말 흥미로운 다른걸 발견 했던 겁니다. 이걸 좀더 조사해보기로 하죠.
Module Summary / 한글자막
-----------------------------------------------------------------
4주 부록: 천문학자 에밀리 페트로프와 인터뷰
Bonus: Interview with Emily Petroff / 한글자막 / 영문자막
[인터뷰]
펄사와 고속 전파 폭발에서 자료 캐기
[Data mining for pulsars & fast radio bursts]
[00:03] 제 이름은 에밀리 페트로프 입니다. (Emily Petroff, http://www.ebpetroff.com/) 천체물리학 박사이죠. 지금은 네델란드 전파천문학 연구소 아스트론(ASTRON)에서 일하고 있어요. 이 곳은 네델란드 교외에 위치하고 있죠. 제 시간의 절반은 여기에서 보내고 나머지 절반은 암스텔담의 천문학 연구소에서 보냅니다.
[00:25] [당신의 연구분야에 대해 말해 주세요]
저는 주로 펄사(pulsars)를 연구하는데 전파를 빠르게 내뿜는 최근에 발견된 천체입니다. 펄사(Pulsars)라는 것은, 그러니까 여러분이 들어봤을 지도 모르는데 아주 빠르게 회전하는 중성자별(neutron star)입니다. 펄사는 밀도가 아주 높은데 초신성(supernova)이 폭발하고 남은 거죠. 우리가 아는 어떤 물질보다 밀도가 높습니다. 게다가 아주 빠른 속도로 돌고 있어요. 그리고 양극에서 '제트(Jets)'가 뿜어나옵니다. 그리고 그 '제트'가 마치 등대처럼 빙글빙글 돕니다. 전파 망원경으로 보면 그 제트가 돌고 있는 것을 진짜로 볼 수 있죠. 제트가 우리 시선 방향 앞을 지날 때마다 반짝이는 것 처럼 보이는거죠. 마치 등대 처럼 말이죠. 하지만 이 전파 망원경으로 찾는 것이 또 있는데 아주 강력한 전파 섬광입니다. 고속 전파 폭발(fast radio burst)이라고 부릅니다. 아직 우리는 그것이 어디로부터 나오는지 확실히는 모릅니다. 마치 펄사에서 봤던 것처럼 간헐적이긴 한데 아주 드믈거나 어쩌면 정말 한번 뿐이었는지 모르죠. 이 전파신호는 우리은하 최외곽에서 온다고 추측합니다. 아마 엄청난 폭발일지도 모르고 우주 저편 어딘가에 있는 초강력 원조(progenitors)일지도 모릅니다.
[참고]
1. Progenitors of type Ia supernovae
https://arxiv.org/abs/1204.1155
https://arxiv.org/abs/1609.03639
https://arxiv.org/abs/astro-ph/9903264
2. Fast Radio Burst, https://en.wikipedia.org/wiki/Fast_radio_burst
[01:35] [엄청난 양의 관측자료로 인한 어려움은 뭔가요?]
내 생각에는 첫번째 어려움은 그것들을 처리하는 일입니다. 왜냐면 우리는 가능한 빠르게 그 신호들을 찾아내고 싶어요. 그러기 위해 빠르게 처리해야 하는 것을 넘어서 실시간으로 다루고 싶습니다. 실제로 요즘은 그렇게 하고 있어요. 실시간 처리는 정말 엄청나게 큰 넘어야할 산 이었습니다. 근본적으로 자료를 분해하여 작게 만드는 방법을 택한 것인데 관측 자료를 한개의 큰 파일에 담아 처리하기보다 망원경에서부터 자료를 잘게 나눴죠. 하지만 여전히 원하는 답을 찾아내기 위해 엄청나게 많은 자료 조각들을 빠르게 한데 모아야 하는 과제가 있죠. 하지만 급선무는 이 모든 자료를 저장하는 겁니다. 파크스 전파 천문대(Parkes Observatory)에서 전하늘 탐사관측을 실시하면 보통 하루 24시간 내내 몇주 연속으로 이어집니다.
* Parkes Observatory, https://en.wikipedia.org/wiki/Parkes_Observatory
이때 생성되는 관측 자료 양이 마치 수분만에 고화질 영화 한편에 꼴에 해당하죠. 그러니 분당 수 기가 바이트가 망원경에서 나오는 셈이죠. 그럼 우리는 그 자료를 전부 어딘가에 저장해야 합니다. 나중에 어딘지 모르지만 저장해둔 곳에 접근하여 빠르게 처리하고 우리가 원하는 것을 찾아내야 합니다. 이것이 바로 우리가 직면하고 있는 거대한 어려움 입니다. 단지 담아두는 것으로 끝나지 않겠죠? 수집한 관측자료에서 우리가 원하는 것을 효과적으로 찾아내는 방법이 있어야 겠죠?
[02:57] [(관측자료의 전처리)대량의 자료처리를 하면서 생긴 문제를 어떻게 해결 했나요?]
우리가 망원경에서 한발짝 앞서 취했던 방법은 기본적으로 그래픽 처리장치(GPU, graphic processing unit)의 계산능력을 활용한 겁니다. 우리가 필요한 처리를 일렬로 그러니까 순서대로 작업하는 CPU에서 수행하는 대신 GPU의 장점을 활용하기 시작한 것이죠. 실제로 GPU는 병렬처리가 가능해서 우리의 일을 아주 효과적으로 해줍니다.
* nVidia GPU High-Performance Computing 참조.
http://www.nvidia.com/object/sc10_cuda_tutorial.html
주파수(스펙트럼)변환같이 특히 반복적인 작업에 매우 적합하다. 이 경우 병렬처리를 하는 GPU에 다수의 작업을 동시에 할당하여 속도를 올릴 수 있습니다. GPU의 병렬처리 능력 덕분에 거의 실시간에 가까운 처리속도를 낼 수 있게됐죠. 따라서 우리는 망원경에서 나오는 자료를 16초 간격으로 끊어 처리하게 되었는데 자료를 받아들인 즉시 폭발신호가 있는지 없는지 알아낼 정보를 얻게 되었습니다.
[03:52] [자료처리 요령이나 도구를 추천해 주시겠어요?]
'시각화'의 장점을 활용하세요. 가령 어떤 숫자들을 보고 있는데 x, y, z 로 짝지워진 숫자라면 아마 3차원 육면체나 뭐 그런 정보라고 이해하겠죠. 하지만 자료의 일부를 떼서 시각화 해보면 이해하는데 확실히 도움이 됩니다. 이 숫자들이 실제로 어떤 모습이 될지 눈으로 보는거죠. 혹은 숫자를 도표로 찍어 놓으면 실제로 무슨 의미인지 보일 겁니다. 그리고 파이썬(Python)은 굉장한 도구 입니다. 자료를 개략적으로 살펴보고 싶은데 자료에 잡음이 심하다던가 자료 일부가 좀 어색하다던가 다른 자료와 비교해서 차이를 알고 싶다던가 할 때가 있죠. 파이썬을 쓰면 정말 쉽게 할 수 있는 일입니다. 그리고 훌륭한 도표를 그릴 수 있는데 아주 직관적입니다. 없는게 없죠. (물론 본격 연구에는 전문 소프트웨어 패키지를 쓴다.) 인간의 뇌는 도표로부터 뭔가 특이한 것을 찝어내는 독특한 능력이 있다고 생각해요. (HR-Diagram을 보라! 그냥 색과 밝기를 도표에 나타냈을 뿐인데 현대 천체물리학을 모두 담고 있지 않은가!) 코드(프로그램)이 여러분이 원하는 것을 찾아줄 수 있지만 여러분이 뭔가 의구심이 든다면 직접 도식화 해보세요. 뭔가 혼란 스럽거나 그런때 그것에 대비한 도표를 그려보면 즉각 두 그림 사이에 차이를 알아챌 수 있을 겁니다. 그럼으로써 여러분의 자료에 무엇이 담겨 있는지 알아 채는데 실질적 도움이 될 겁니다. 코드(프로그램)이 여러분의 자료에서 뭔가 찾아내 알려주진 못하죠.
[05:00] [당신의 연구에서 가장 좋았던 것을 말해 주세요]
제가하는 연구중 가장 좋았던 것은 사실 대부분 연구가 그렇지만, 나 스스로 의문을 제기하고 그에대한 답을 찾아가는 겁니다. 자료는 다양한 방법으로 수집되죠. 그리고 만족할 때까지 끝없이 질문을 던집니다. 내가 보기에 이런것 같은데 라던가, 내가 찾던게 이건가 따위의 질문 말입니다. 자료를 통해 들여다보기 전에는 실제로 원하는 답을 절대 구할 수 없습니다. 처리 해야할 대량의 자료를 맞닥트리면 주눅들기 마련이죠. 박사과정 학생일 때 예상했던 것보다 더 많은 양의 도표를 살펴봐야 했었을 겁니다. 하지만 동시에 이 모든 자료를 살펴보고 아주 놀라운 것을 발견하게 됐는데 의문에 답이 되기도 하고 더 많은 질문의 길로 인도 해줬죠. 심지어 찾고자 하는 것이 아니었더라도 살펴봐야할 자료를 충분히 가졌다는 점은 아주 흥분되는 일입니다. 그리고 예상치 못한 것을 알 수 있죠. 이 고속 전파 폭발이 어디에서 오는지 그리고 그것의 근원이 어디에서 기원됐는지 사람들이 그 자료를 어떤 방식으로든 살펴보고 감탄 합니다.
* '와우' 신호, https://ko.wikipedia.org/wiki/Wow!_%EC%8B%A0%ED%98%B8
그러니까 우리가 펄사를 찾고 있었지만 펄사 만큼이나 정말 흥미로운 다른걸 발견 했던 겁니다. 이걸 좀더 조사해보기로 하죠.
댓글 없음:
댓글 쓰기