2018년 7월 10일 화요일

2주 부록: 천문학자 브랜든 브루어와의 인터뷰

[커세라 강좌 소개] 자료기반 천문학(Data-Driven Astronomy)
https://www.coursera.org/learn/data-driven-astronomy

--------------------------------------------------------
Week 2: Big data makes things slow
제2주차: 자료가 방대해지면 뭘하든 느려진다.
- How to work out the time complexity of algorithms
  복잡한 계산을 빠르게 수행하는 방법
- Exploring the black holes at the centers of massive galaxies
  거대 은하의 중심부 블랙 홀 찾기
--------------------------------------------------------
1강: 방대한 자료는 일을 더디게 만든다
Lesson 1: Big Data makes things slow / 한글자막
--------------------------------------------------------
2강: 초거대 블랙홀과 활동성 은하 핵(AGN)
Lesson 2: Supermassive Black Hole / 한글자막
--------------------------------------------------------
3강: 교차정합(cross-matching) 알고리즘에 대하여
Lesson 3: What is cross-matching ? / 한글자막
--------------------------------------------------------
4강: 실행 시간 복잡도 평가
Lesson 4: Evaluating Time Complexity / 한글자막
--------------------------------------------------------
Lesson 5: A (much) faster algorithm / 한글자막
--------------------------------------------------------
2주 요약: 대량의 관측자료분석, 누군가 같은 고민을 했을 것이다.
Mudule Summary / 한글자막
--------------------------------------------------------
2주 부록: 천문학자 브랜든 브루어와의 인터뷰
Interview with Brandon Brewer / 한글자막 / 영문자막



[베이즈 확률론으로 우주를 이해하는 법]

* 이번주 인터뷰는 좀 특이하다. 우주현상의 연구에 베이즈 확률 통계학을 적용하는 학자와의 인터뷰. 내용에 상당히 추상적인 내용을 담고 있다. 시작하기 전에 약간의 지식을 가지고 보는것이 좋다.

베이즈 확률론(Bayesian probability)은 확률을 '지식 또는 믿음의 정도를 나타내는 양'으로 해석하는 확률론이다.[1] 확률을 발생 빈도(frequency)나 어떤 시스템의 물리적 속성으로 여기는 것과는 다른 해석이다. 이 분야의 선구자인 18세기 통계학자 토머스 베이즈의 이름을 따서 명명되었다.

* 대화체 문장이 많고 추상적인 내용을 담고 있음. 우리말로 옮기는데 한계가 있으니 원문과 동영상을 보면서 참고 바람.

[00:06] 안녕하세요, 저는 브랜든 브루어 입니다. 오클랜드 대학교 통계학과에서 강의하고 있어요. 저는 원래 물리학으로 박사학위를 받았고 그 과정에서 자료분석 방법론에 빠졌죠. 그때 제 친구가 저와 통계학의 관계를 이렇게 말했죠. 나와 통계학 사이가 마치 연애 드라마 같다고 했는데 둘 사이가 끝까지 가긴 하지만 아직 미심쩍은 뭔가 있다는 겁니다. 그래서 나는 뭔가 석연찮은게 있다고 생각 했죠. (뭔가 석연치 않아서 이 연구를 파보기로 했다.)

[00:38] [통계학과 천문학 사이에 어떤 연관성이 있을까요?]

사람들이 궁금해 하는 과학적인 질문과 그들이 가지고 있는 자료가 서로 직접적인 관계가 있다고 믿곤 합니다. 하지만 대개 그렇지는 않죠.

*사람들이 과학적인 질문을 할 때 직접적인 자료(근거)를 가지고 있다고 생각하지만 실제론 그렇지 않다.(자신이 가진 자료와 엉뚱한 질문을 한다)

왜 그런지 잘 설명할 수는 없겠지만 제 생각은 이렇습니다. 그러니까 별과 은하와 우주을 모두 통하는 어떤 결론 말이죠. 대개 어떤 자료가 뭔가 조금이라도 설명해 줄 수 있을 것이라고 합니다. 아니면 간접적이라도 말이죠. 하지만 그런 설명은 원하는 직접적인 답이 되진 못합니다.

*작은 단서를 가지고 온전한 답을 얻었다고 할 수 없다.

그래서 제가 하는 일은 우리가 어떤 질문에 답을 줄 수 있는 자료의 신빙성의 정도를 나타내는 확률이론에 관한 겁니다.

*베이즈 확률론:'지식 또는 믿음의 정도를 나타내는 양'으로 해석하는 확률론

[01:27] [베이즈 통계학은 뭐가 다르죠?]

보통 우리는 어떤 질문에 대답을 할 수 있으려면 가정이 참이어야 합니다. 우리가 얻고 싶은 자료는 무엇일까요? 중력 렌즈 현상에서 한 예를 들어보면 한 은하 앞에 다른 은하가 있다고 합시다. 그리고 앞에 있는 은하가 뒤에있는 은하의 빛을 휘게해서 아인슈타인 원을 보게 되는 거죠. 따라서 뒤에 있는 은하의 실제 모습을 보지 못하고 어떤 식으로든 왜곡된 것을 보는 겁니다. 그리고 관측으로 그렇게 나왔으니 왜 그런지 알고 싶겠죠. 어떻게 뒤에 있는 은하가 이렇게 혹은 저렇게 보일 거라고 확신할 수 있을까요? 아니면 이게 클까, 저게 클까, 뭐가 됐든 그것에 대해 알고 싶을 겁니다. 그럼 모델에 맞춰보는(model fitting) 일련의 과정을 수행 할 수 있습니다. 그리하여 과학적인 답이 될 모든 모든 가정을 세우게 됩니다. 그 가정들을 세우는 일은 원칙적으로 이론을 바탕으로 하면 그리 까다롭진 않죠. 맞아야 한다고 생각한 모든 이론(아이디어)을 되도록 많이 취할 겁니다. 그리고 나서 그 모든 이론들을 자료에 맞춰보고 어긋나는 이론은 제거해 나갑니다. 결국 옳다고 믿을 만한 범주에 놓인 하나를 갖게 되겠죠. 물론 이 과정은 실제로는 생각했던 것보다 복잡합니다. (웃음)어쨌든 기본(베이즈)이론은 크게 다르지 않습니다.

[02:43] [베이즈 통계이론은 어떻게 작동하나요?]

어떻게 작동하는지 알고 싶다면 직접 한번 생각해보는 것도 한 방법이죠. 사람들은 때로 지레 걱정을 하는데 가설을 끼워 넣어야 하기 때문이죠. 예를들어 자료를 수집하기전에 불확실성을 묘사하는 사전(확률)분포(prior distribution)라고 부르는 것인데 그 가설이 사람들을 다소 불편하게 만드는 개념의 한 종류 입니다. 하지만 관련된 수학을 조금 들여다보고 실제 해야할 일과 결과로 얻어낼 것이 무엇인지 살펴보면, 그리고 실제로 내가 가진 자료와 그 가설들을 취해보면 어떤 결론에 도달할 것입니다. 그리고 어쨌든 진실(그결론)이 여전히 합당한 답을 얻을 거라고 생각하는 가설들에서 벗어났는지 알 수 있을 거나는 보장은 없죠. 하지만 그것(맞다는 보장을 할 수 없다고해서)이 가설들의 결말을 찾아내는 것이 가치가 없다는 뜻은 아닙니다. 만일 가성을 세우고 결말을 추정해 보는 것을 모형화의 일환이라고 생각할 수 있죠. 그것은 마치 내가 이렇게 가정하고 그 결론은 이렇게 될 것이라고 관찰하는 것과 같습니다. 그리고 20여년의 세월동안 누군가 당신이 생각지도 못했던 또다른 생각을 해왔을 것이며 그 이론이 이제껏 해온 분석방식보다 실제로 더낳은 결과를 보일 것이란 것을 알게됩니다. 이것이 열린 결말이라 할 것입니다.

[03:57] [당신이 사용하는 자료 방법과 기법은 어떤 것이 있나요?]

가장 중요한 분석 기법 중 하나는 사람들이 천문학에 적용할 필요가 있는 것들인데 자료에 적합한 모형(fit model) 입니다. 그것(모형과 자료)는 뗄 수 없는 관계죠. 여러분이 읽게될 모든 논문과 나누게될 모든 대화에 대해 누군가 확실한 증거를 가지고 결론이 어덯게 될지 아는 모형을 가지고 있다면 인수 값을 메기기 위해 자료를 거기에 맞춰야 합니다. 그리고 그렇게 할 서로다른 방법이 오만개나 있다고 하죠. 그일을 수행할 실용적인 계산 방법이 있습니다. 저는 마코프 체인 몬테 카를로라고 하는 방법을 즐겨 씁니다. 그 방법은 인수들을 이리저리 무작위로 바꾸는데 이전에 시도했던 것을 기억하며 계산을 반복하죠.

*통계의 의미: 이전 (확률)값을 기억한다

그리하여 몇개의 (전이할)지점을 확보하고 그곳에 직통하도록 조정합니다.(전이 확률을 높임) 아마 처음에는 잘 맞지 않는 몇개의 직선(전이경로)으로 시작할 겁니다. 그런 다음에 변경된 인수들을 제시하죠. 그리하여 더 기울거나 덜 기울거나 위나 아래로 이동된 직선을 만들어 냅니다. 마침내 더 잘 들어 맞는 연결도가 만들어지면 그것을 채택 합니다. 그리고 만일 인수변경으로 인해 좋지않은 결과를 낳더라도 그것을 받아들여야 하는 이유있는 확률이 있을 겁니다. 그러니까 내리막길도 있는 법이죠. 그리고 결국 자료에 맞춰진 직결선을 만들어 줄텐데 그것이 바로 베이즈 방식 확률론에 근거한 결과죠.

[05:23] [네, 그렇다면 정통 통계학과 생각하는 방식이 다른건가요?]

제가 이 방법에 몰두하게된 또다른 이유는 기초개념과 원리 때문 입니다. 통계학의 관점에서 보면 두가지 차이점이 있죠. 그중 하나가 여기서 봤다시피 방대한 분량의 조리법이 있다는 것이고 상황에 직면 했을 때 그에 적절한 조리법을 하나 골라 시행 할 수 있다는 겁니다. 저는 베이즈 방식이 있다는 것을 알 았을 때 아주 기뻣습니다. 몇가지 기초원리를 가지고 있는 대신 그 원리라는 것이 격은 혹은 격을 지도 모르는 이전 정보를 표현하는데, 그러니까 그것이 자료와 어떻게 연관되는지 밝혀내고 방향을 꺽어 결과를 얻어 냅니다. 이러한 얼마나 이 가정이 강력하고 이런 자료가 그 결과를 암시하는지 바로 그것이죠. 그리고 모든 여러 다른 조리법 혹은 다수의 서로다른 조리법이 내게 이리저리 강구해 보라고 말하는 요리책. 그것은 내가 이전에 사용하던 정보가 어떤 것이었는지 가정 했던것과 일치.

[06:27] [이 분야에서 일하는 즐거움이 뭘까요?]

저는 한 문제에 대해 여러가지 가능성을 줄 수 있다는 것을 좋아합니다. 그리고 문제 해결에 'Numerical Recipes'의 220 쪽에 나온 방법을 적용 했다고 말하는 것이 싫어요. 그대신 이렇게 말하길 좋아합니다.

음... 이것은 우리가 찾는 과학 프로그램의 논리 중 하나구나...

우리가 아는 물리학이 여기에 있어요. 그것은, 우리의 관측자료에 망원경에 따른 잡음이 낀다는 것을 알고 있죠. 그리고 또 확률 이론이란 것이 있죠. 이제 그 둘을 합쳐서 어떤 결론에 도달하게 될지 생각해보세요. 그건 확실 합니다. 온갖 것을 기억할 필요는 없어요.

[07:13] [베이즈 방법을 적용 했을 때 초창기 분위기는 어땠 을까요?]

천문학계는 통계학 쪽으로 오랜동안 좋은 경험을 해왔다는 생각이 들어요. 그리고 이쪽 학계에는 폭넓은 가능성을 가지고 있다고 봅니다. 여전히 통계학에 대해 잘 모르는 사람들이 많구요. 통계학을 적용하기에 좀 주저하거나 고생 중 인 것 같습니다. 그리고 다른 한편으로는 기본적으로 통계학자들이지만 천문학자는 아니구요, 혹은 그 중간에 서있는 사람도 있죠. 그리고 나는 저의 박사학위를 할 때 한쪽으로 사람들이 치우쳐 있는걸 봤어요. 다른 쪽에는 별로 사람들이 없었죠. 이것은 장애을 일종입니다. 그러니까 통계학에서 기본적으로 오랜동안 지하에서 활동하는 이교도들의 비정통 이었던 거죠. 그런데 이제 중심축이 되었습니다. 저는 이렇게 중심축이 된 것을 아주 즐기고 있어여. 그게 옳다고 생각해요. 하지만 인정하기에 인색한 사람들도 있다는 것도 흥미롭습니다. 베이즈 통계 방식의 연구 분야가 주류가 된 것을 비판하고 있죠.

댓글 없음:

댓글 쓰기