2013년 4월 15일 월요일

Data Science: The Numbers of Our Lives

Data Science: The Numbers of Our Lives

By 

HARVARD BUSINESS REVIEW calls data science "the sexiest job in the 21st century," and by most accounts this hot new field promises to revolutionize industries from business to government, health care to academia.

The field has been spawned by the enormous amounts of data that modern technologies create — be it the online behavior of Facebook users, tissue samples of cancer patients, purchasing habits of grocery shoppers or crime statistics of cities. Data scientists are the magicians of the Big Data era. They crunch the data, use mathematical models to analyze it and create narratives or visualizations to explain it, then suggest how to use the information to make decisions.

In the last few years, dozens of programs under a variety of names have sprung up in response to the excitement about Big Data, not to mention the six-figure salaries for some recent graduates.

In the fall, Columbia will offer new master's and certificate programs heavy on data. The University of San Francisco will soon graduate its charter class of students with a master's in analytics. Other institutions teaching data science include New York University, Stanford, Northwestern, George Mason, Syracuse, University of California at Irvine and Indiana University.

Rachel Schutt, a senior research scientist at Johnson Research Labs, taught "Introduction to Data Science" last semester at Columbia (its first course with "data science" in the title). She described the data scientist this way: "a hybrid computer scientist software engineer statistician." And added: "The best tend to be really curious people, thinkers who ask good questions and are O.K. dealing with unstructured situations and trying to find structure in them."

Eurry Kim, a 30-year-old "wannabe data scientist," is studying at Columbia for a master's in quantitative methods in the social sciences and plans to use her degree for government service. She discovered the possibilities while working as a corporate tax analyst at the Internal Revenue Service. She might, for example, analyze tax return data to develop algorithms that flag fraudulent filings, or cull national security databases to spot suspicious activity.

Some of her classmates are hoping to apply their skills to e-commerce, where data about users' browsing history is gold.

"This is a generation of kids that grew up with data science around them — Netflix telling them what movies they should watch, Amazon telling them what books they should read — so this is an academic interest with real-world applications," said Chris Wiggins, a professor of applied mathematics at Columbia who is involved in its new Institute for Data Sciences and Engineering. "And," he added, "they know it will make them employable."

Universities can hardly turn out data scientists fast enough. To meet demand from employers, the United States will need to increase the number of graduates with skills handling large amounts of data by as much as 60 percent, according to a report by McKinsey Global Institute. There will be almost half a million jobs in five years, and a shortage of up to 190,000 qualified data scientists, plus a need for 1.5 million executives and support staff who have an understanding of data.

North Carolina State University introduced a master's in analytics in 2007. All 84 of last year's graduates in the field had job offers, according to Michael Rappa, who conceived and directs the university's Institute for Advanced Analytics. The average salary was $89,100, and more than $100,000 for those with prior work experience.

"This has become relevant to every company," said Michael Chui, a principal at McKinsey who has studied the field. "There's a war for this type of talent."

Because data science is so new, universities are scrambling to define it and develop curriculums. As an academic field, it cuts across disciplines, with courses in statistics, analytics, computer science and math, coupled with the specialty a student wants to analyze, from patterns in marine life to historical texts.

With the sheer volume, variety and speed of data today, as well as developing technologies, programs are more than a repackaging of existing courses. "Data science is emerging as an academic discipline, defined not by a mere amalgamation of interdisciplinary fields but as a body of knowledge, a set of professional practices, a professional organization and a set of ethical responsibilities," said Christopher Starr, chairman of the computer science department at the College of Charleston, one of a few institutions offering data science at the undergraduate level.

Most master's degree programs in data science require basic programming skills. They start with what Ms. Schutt describes as the "boring" part — scraping and cleaning raw data and "getting it into a nice table where you can actually analyze it." Many use data sets provided by businesses or government, and pass back their results. Some host competitions to see which student can come up with the best solution to a company's problem.

University of San Francisco students have used data from General Electric to predict how much energy windmills could create. At North Carolina State, with data from the Postal Service, students have analyzed response rates to junk mail to find ways to improve its effectiveness.

Studying a Web user's data has privacy implications. Using data to decide someone's eligibility for a line of credit or health insurance, or even recommending who they friend on Facebook, can affect their lives. "We're building these models that have impact on human life," Ms. Schutt said. "How can we do that carefully?" Ethics classes address these questions.

Finally, students have to learn to communicate their findings, visually and orally, and they need business know-how, perhaps to develop new products.

"That's one of the challenges," said Terence Parr, program director of the analytics and computer science programs at the University of San Francisco. "To be successful, you need to have a wide range of skills that doesn't fit in one department."

The question, said Bill Howe, who teaches data science at the University of Washington, is whether it is even possible to instill in a single person all the skills needed, from statistics to predictive modeling to business strategy. The university's offerings range from a free online course on Coursera to a nine-month certificate program to a Ph.D. track in Big Data.

"It remains to be seen," he said, "but we're still of the mind that a curriculum that aims to train data scientists is feasible." He added: "What employers want is someone who can do it all."

 

Claire Cain Miller is a technology reporter for The Times.

2013년 4월 9일 화요일

뉴욕서 한국·중국식 입시학원 인기몰이

뉴욕서 한국·중국식 입시학원 인기몰이
뉴욕에서 한국과 중국식 입시학원이 이제 더 이상 '그들만의 리그'가 아닌 다인종들이 찾고 있는 인기학원으로 발돋움하고 있다고 최근 뉴욕타임스가 보도했다.

뉴욕 타임스는 지난 3일 "중국과 한국 러시아계 학원들이 과거엔 자신들의 커뮤니티 학생들을 위해 만들어졌지만 지금은 타민족 학생들이 크게 늘어나는 등 인종적 보편성을 보이고 있다"고 소개했다.

이 기사에 따르면 중국 교사 출신 엘마 모이씨는 1982년 뉴욕 차이나타운 헨리스트릿에 처음 학원을 차렸다. 당시엔 중국학생 상대로 중국어 신문에 광고를 냈지만 2011년 트라이베카 지역에 낸 두번째 점포는 분위기가 완전히 다르다. 프랑스풍의 문이 달린 이곳의 이름은 '플로렌틴'이다. 

웹사이트는 대부분 영어로 돼 있고 영어 팜플렛과 영어잡지에 광고도 한다. 이곳을 오픈한 것은 프린스턴을 졸업한 딸 올림피아의 아이디어 덕분이다. 처음엔 97%가 중국계였지만 지금은 70%로 줄었다. 올림피아는 "앞으로는 모두 인종적 배경이 다른 학생들이 들어올 것"이라고 말했다. 

뉴욕 타임스는 한때 중국계와 한국계 러시아계 학생들의 전유물로 여겨진 학원들이 뉴욕 부모들에게 확산된 것은 전혀 놀라운 일이 아니라고 설명했다. 차별화된 프로그램으로 자녀들의 특목고 진학률이나 SAT 점수의 향상에 효과를 보고 있기 때문이다. 

5년전만 해도 이들 학원에 비아시아계 학생들이 오면 이색적이었지만 이제는 자연스러운 현상이 되고 있다며 영어에 능숙한 리셉셔니스트를 고용하고 공격적인 마케팅을 하는 학원들은 기존 이름을 바꿔 이미지를 개선하기도 한다.

타임스는 또한 한국계로 LA지역에도 지사가 있는 이노피도 소개했다. 37년 역사의 한국 학습회사 이노피(E-nopi)도 미국 이름 '아이레벨(Eye Level)'로 바꿨는데 비아시안 부모들에게 눈높이 맞춘 교습방식의 인지도를 높이기 위해서다. 한 지점은 최근 1시간 과정 4번의 수업료가 200달러이며 100명중 3분의2가 흑인과 히스패닉 백인 등이 섞여 있다고 타임스는 그 현황을 보도했다.

2013년 4월 7일 일요일

“뉴욕, 한국 등 아시아 입시학원인기” NYT

“뉴욕, 한국 등 아시아 입시학원인기” NYT
    기사등록 일시 [2013-04-06 09:08:18]    최종수정 일시 [2013-04-06 09:36:40]


LiveRe Widzet










‘이노피’ 현지화 전략 등 소개

【뉴욕=뉴시스】노창현 특파원 = 뉴욕에서 한국과 중국 학생들에게 인기 있는 입시학원(cram school)이 보편화되고 있다고 뉴욕타임스가 전했다.

뉴욕타임스는 3일 “한국과 중국 러시아계 학원들이 과거엔 자신들의 커뮤니티 학생들을 위해 만들어졌지만 지금은 타민족 학생들이 크게 늘어나는 등 인종적 보편성을 보이고 있다”고 소개했다.

중국에서 교사였던 엘마 모이(68)는 82년 차이나타운 헨리스트릿에 처음 학원을 차렸다. 그때는 중국학생들을 상대로 중국신문에 광고를 냈지만 2011년 트라이베카 지역에 낸 분원은 분위기가 완전히 다르다.

복도엔 밝은 전등이 있고 교실마다 프랑스풍의 문이 달린 이곳의 이름은 ‘플로렌틴’이다. 웹사이트는 대부분 영어로 돼 있고 영어 팜플렛과 영어잡지에 광고도 한다.

이곳을 오픈한 것은 프린스턴을 졸업한 딸 올림피아의 아이디어였다. 처음엔 97%가 중국계였지만 지금은 70%로 줄었다. 올림피아는 “앞으로는 모두 인종적 배경이 다른 학생들이 들어올 것”이라고 말했다.

타임스는 한때 중국계와 한국계 러시아계 학생들의 전유물로 여겨진 학원들이 뉴욕 부모들에게 확산된 것은 전혀 놀라운 일이 아니라고 말했다. 차별화된 프로그램으로 중고등학교 자녀들의 특목고 진학률이나 SAT 점수의 향상에 효과를 보고 있기 때문이다.

5년전만 해도 이들 학원에 비아시아계 학생들이 오면 이색적이었지만 이제는 자연스러운 현상이 되고 있다. 영어를 하는 리셉셔니스트를 고용하고 공격적인 마케팅을 하는 학원들은 기존 이름을 바꿔 이미지를 개선하기도 한다.

중국부모들 사이에 뉴욕의 특목고인 스타이브센트에 진학률이 높은 것으로 알려진 브루클린 벤손허스트의 입시학원 호라이즌은 백인 부모들에게 좀더 어필하도록 ‘재능아동 뉴욕시티’로 개명했다. 앤드류 챈 원장은 이들 학부모들에게 중국식 학습방법을 서구스타일로 접목한 프로그램을 제공하고 있다.

37년 역사의 한국학습회사 이노피(E-nopi)도 미국이름 ‘아이레벨(Eye Level)’로 바꿨다. 미국 부모들에게 아이들 눈높이 맞춘 교습방식의 인지도를 높이기 위해서다. 최근 파크 슬로프에 생긴 분점은 한시간 과정 4개의 수업료가 200달러이며 100명중 3분의2가 흑인과 히스패닉 백인 등이 섞여 있다. 프랑코 버디노 파크슬로프 점장은 “우리는 완전히 인종적으로 섞였다”고 말한다.

러시아계 학원들도 마찬가지다. 슬라브어와 슬라브 문학을 가르치기 위해서 생겨났지만 지금은 다양한 인종의 학생들을 끌어들인다. 95년 뉴저지 노스브룬스윅에 문을 연 ‘스쿨플러스’는 맨해튼 어퍼웨스트사이드와 뉴저지 프린스턴을 포함해 15개의 분원을 갖고 있다.

마켓리서치 회사인 아이비스월드에 따르면 입시학원 시장은 2013년 8억4040만 달러가 예상되며 2018년이면 8억7690만달러까지 올라갈 것으로 전망된다.

헌터칼리지의 마가렛 친 사회학과 교수는 맨해튼과 브루클린의 중국계 입시학원에서 인종적 다양성을 보이게 될 것이라고 말했다. 22010년 인구센서스에서 맨해튼 차이나타운의 백인인구는 10년전에 비해 42% 늘었다. 브루클린 차이나타운 역시 마찬가지다.

이들 학원들은 선발주자인 일본학원 구몬과 차별화 노력을 기울이고 있다. 오사카의 수학교사 토루 구몬이 설립한 구몬은 뉴욕시에만 44개의 분점이 있다. ‘아이 레벨’의 버디노 점장은 한국의 설립자 강영중 회장을 ‘학습지 시장의 개척자’ 라고 칭송하며 이미지를 부각시키는 모습이었다.

robin@newsis.com

2013년 4월 3일 수요일

중앙 칼럼] 하버드가 보낸 이메일

중앙 칼럼] 하버드가 보낸 이메일 

 [LA중앙일보]
장병희/특집팀 부장
발행: 03/30/13 미주판 18면   기사입력: 03/29/13 18:48
IT업계 화두로 떠오른 빅테이터 관심 가져야 세상 바꾸는데 기여해
최근 하버드대에서 동문들에게 이메일로 색다른 협찬 요청을 해서 뉴욕 타임스에 기사화 됐다. 

25일 하버드대는 '시간'과 '지식'을 지원해 달라는 이메일을 졸업생들에게 보냈다. 하버드는 기부금 펀드가 3000억달러가 넘을 만큼 돈 모으는데 일가견이 있는 학교다. 그런데 돈이 아닌 것을 요청했으니 화제가 될 수밖에 없다. 

하버드는 인문학 클래스로 '고대 그리스 영웅'이라는 온라인 무료강좌를 내놓았는데 여기서 온라인 멘토와 디스커션 그룹의 매니저 역할을 할 자원봉사자를 찾는다는 것이다. 그레고리 나지 교수가 70년대 말부터 개설한 이 강좌는 수강학생이 1만명을 넘을 정도로 인기가 높다. 그런데 온라인 강좌를 열었더니 2만7000명이 수강신청을 했고 이들을 제대로 공부시키려면 강사진 몇명으로는 부족해 수강했던 제자들에게 도움을 요청한 것이다. 

온라인 클래스의 바람은 지난해부터 크게 불기 시작했다. 하버드는 온라인 클래스 부문에서 후발주자인 셈인데 이런 어려움을 극복하는 방법으로 동문들을 동원할 비책을 세운 것이다. 

나지 교수는 뉴욕타임스와의 인터뷰에서 수십년간의 수강생보다 온라인으로 모집한 학생숫자가 더 많다는데 놀랐다며 흡족해 했다. 원래 10여명의 제자들이 이 온라인 클래스 그룹을 이끌 예정이었는데 그 숫자 갖고는 어렵다는 것을 깨닫은 것이다. 

더 놀라운 것은 하버드가 동문들에게 이메일을 보냈다는 사실이다. 70년대 말부터 하버드를 거쳐간 학생이 수만명에 이를 터인데 이들 중 이 강좌를 수강한 학생을 파악하고 있다는 것이 충격적이다. 

입장을 바꿔놓고 보자. 한국의 대학 중 대형 강의실 수업을 듣는 학생을 알고 있는 학교가 몇군데나 될까. 또한 이들의 이메일 주소를 갖고 있을 가능성은? 물론 하버드라고 해서 1만명의 명단과 이메일을 갖고 있을 것이라고는 보지 않는다. 하지만 상당수 최소한 수백명은 제대로 알고 있다는 얘기다. 

그런데 나지 교수가 특별해서 그의 제자들 이메일을 확보하고 있었을 것이라고는 볼 수 없다. 그리고 이런 상황에서 기민하게 이메일을 보내는 것이 한 팀에서 이뤄진 일이 아니다. 결국 하버드는 각각 학생들이 무슨 과목을 들었는지 수년전부터 이미 꿰고 있었다는 결론이다. 

빅데이터 얘기가 수년전부터 IT업계의 화두 중 하나로 떠오르고 있다. 잘 알려져 있는 개념인 데이터를 외부 서버에 집중적으로 보관하는 의미인 '클라우드'와도 관련이 있다. 어떤 비즈니스든 몇년이면 엄청난 숫자의 고객정보가 쌓인다. 이것이 바로 빅데이터다. 실제로 개인용 컴퓨터가 지금처럼 엄청나게 많이 보급될지는 불과 15년 전만해도 몰랐다. 데이터를 빨리 전송하는데 환호했을 뿐이지 그것이 쌓여서 엄청난 데이터가 될지 골똘히 생각해본 전문가들이 별로 없었다. 

이제 역사가 30년이 넘어가는 한인 커뮤니티 기업들이 빅데이터를 제대로 처리하면서 운영하고 있는지 궁금해진다. 하버드에서 개별 강좌의 수강생 정보를 따로 모을 필요는 별로 없어 보였다. 그런데 그것을 모았다가 세상을 바꾸는 작업에 기여하고 있는 것이다. 

수년간 온라인 클래스를 대학들이 대세인줄 알면서도 선뜻 실시하지 못했던 이유는 효과 측면 때문이었다. 강의실 학생만큼 온라인 학생이 열심히 공부할 수 있도록 그들의 의문사항을 제대로 풀어줄 방법이 없었던 것이다. 그런데 하버드의 나지 교수 강좌는 이런 시도를 하고 있다. 하버드의 세상을 바꿀만한 색다른 이메일이 반가운 이유다.