no titles: February 2009

(1) 주어+완전 자동사
    지구가 돈다.
    아이들이 논다.
    물이 흐른다.
    꽃이 핀다.
    짐승들이 모인다.
(2) 주어+보어+불완전 자동사
    시골이 도시가 된다.
    물이 얼음이 된다.
    철수가 의사가 된다.
(3) 주어+목적어+타동사
    아이가 젖을 먹는다.
    학생이 노래를 부른다.
    사람이 소를 부린다.
(4) 주어+여(탈)격 조사+목적어+불완전 타동사
    형이 아우에게 책을 준다.
    아우가 형에게서 책을 받는다.
    스승이 제자에게 은혜를 베푼다.
    제자가 스승께 은혜를 갚는다.
(5) 주어+완전 형용사
    경치가 아름답다.
    산이 높다.
    곰은 미련하다.
    소금은 짜다.
(6) 주어+보어+불완전 형용사
    세균은 동물이 아니다.
    그 괴한이 도둑임이 틀림없다.
    갑이 을보다 낫다.
    을이 갑만 못하다.
(7) 주어+(체언+서술격 조사)
    이것은 꽃이다.
    저것은 나무다.

이수열, <<우리말 바로쓰기 (우리가 정말 알아야 할)>>, 현암사, 1999.

CRISP-DM 1.0
CRISP-DM이란, CRoss-Industry Standard Process for Data Mining의 약어이고, EC의 자금지원을 받아서 여러 산업에 적용할 수 있는 데이터 마이닝 표준 절차를 연구하는 곳이다.
1.0버젼은 공표되었고, 현재 2.0버젼 준비중이다.

틈틈이 1.0 버젼을 정리하겠다.
---------------------------------------------------------
1. business understading
이 단계는 프로젝트의 목표와 요구사항을 비즈니스 측면에서 이해하는데 중점을 두고, 이런 지식을 데이터 마이닝의 문제로 정의해서, 프로젝트 목표를 수행하기 위한 예비의 계획을 세운다.

2. data understanding
데이터 이해 단계는 초기 데이터 수집과 데이터에 익숙해지기 위한 활동을 전개해서, 데이터 품질 문제를 식별하고, 데이터에 대한 첫 통찰을 찾아내거나, 숨겨진 정보로 부터 가설을 세우기 위한 하위 집합을 찾아내는 활동을 포함한다.

3. data preparation
데이터 준비 단계는 원자료로부터 최종 데이터를 생성하는 모든 활동을 포함한다. 데이터 준비단계는 여러번 수행되기도 하고, 정해진 순서를 반드시 지키는것은 아니다. 테이블, 레코드, 속성의 선택 외에도 모델링 도구용 데이터 변환과 정제작업도 포함한다.

4. modeling
이 단계에선, 다양한 모델링 기법이 선택되고, 적용되고, 최적의 가치를 찾기위해 입력변수를 측정한다. 일반적으로, 동일한 데이터 마이닝 문제 유형에 대한 여러가지 기술이 있다. 몇몇 기술은 데이터의 형태로 인한 특별한 요구사항을 갖는 경우가 있다. 그러므로, 데이터 준비단계로 자주 돌아가는 일이 발생한다.

5. evaluation
프로젝트가 이 국면에 달하면 데이터 분석 관점에서 높은 품질의 모델이 구축된다. 최종 전개 단계로 나아가기 전에, 모델을 전체적으로 평가하고 모델 구축을 위해 실행한 단계를 점검하고, 비즈니스 목적이 적절히 수행되었는지 확인하는 것이 중요하다. (평가의) 핵심 목표는 중요한 비즈니스 문제가 충분히 고려되었는지 판단하는 것이다. 이 단계의 마지막에는, 데이터 마이닝의 결과를 사용할지 반드시 결정해야 한다.

6. deployment
모델 생성이 일반적으로 프로젝트의 끝이 아니다. 모델의 목적이 데이터에 대한 지식을 증가하는데 있다해도, 지식 습득이 체계화되고 표현되어서 고객이 사용할 수 있는 방식이 되어야 한다. 요구사항에 따라서, 전개 단계는 단순히 보고서를 생성하기도 하고 반복가능한 데이터 마이닝 절차를 구현하는 복잡해지기도 한다. 많은 경우 데이터 분석가가 아니라 고객이 전개 단계를 수행한다. 그러나, 분석가가 전개단계를 수행하지 않더라도, 고객이 생성된 모델을 실제로 이용하기 위해 어떤 행동을 수행해야 하는지 이해하는 것이 매우 중요하다.

(최종 update: 20090219)

no titles

Thursday, February 19, 2009

우리말 문장의 기본 유형

Wednesday, February 18, 2009

CRISP-DM 방법론

Labels

Blog Archive