• Índice
  • 1 Introdução histórica daquilo que veio a se chamar estatística
    • 1.1 Filosofia da ciência (teoria do conhecimento, epistemologia)
    • 1.2 Diferentes usos relacionados ao termo, primeiros levantamentos, estudos e publicações (o passado distante)
    • 1.3 Visualização de dados & Estudos e primeiras publicações
    • 1.4 Pesquisadores cuja contribuição foi fundamental na área
    • 1.5 Revista Biometrika
    • 1.6 Eugenia
    • 1.7 Estatística e machine learning : uma livre tradução deste link
  • 2 Introdução conceitual essencial
    • 2.1 Estatística descritiva
    • 2.2 Estatística inferencial
    • 2.3 Produção de conhecimento
    • 2.4 População (universo) & amostra
    • 2.5 Parâmetros e estatísticas
    • 2.6 Tipos de variáveis
    • 2.7 Indexação de dados (\(i\))
    • 2.8 Noções básicas sobre somatórios (\(\Sigma\))
    • 2.9 Análise combinatória (métodos de enumeração)
      • 2.9.1 Princípio básico da contagem (regra da multiplicação)
      • 2.9.2 Regra da adição
      • 2.9.3 Permutações (ordenação de elementos)
      • 2.9.4 Arranjos sem repetição
      • 2.9.5 Arranjos com repetição
      • 2.9.6 Combinações sem repetição
      • 2.9.7 Combinações com Repetição
    • 2.10 Fatoriais
    • 2.11 Conectivos lógicos
    • 2.12 Leis de De Morgan
    • 2.13 Noções básicas para o uso de calculadora (Cassio fx-82MS)
    • 2.14 Instalação do software R em conjunto com a interface gráfica RStudio
      • 2.14.1 RStudio
      • 2.14.2 Pacotes
  • 3 Introdução à estatística descritiva
    • 3.1 Análise exploratória
    • 3.2 Dados brutos, em rol, diagrama de ramos & folhas e de dispersão unidimensional
    • 3.3 Sínteses numéricas descritivas
      • 3.3.1 Medidas de tendência central (posição)
      • 3.3.2 Medidas de dispersão (variabilidade)
      • 3.3.3 Medidas de subdivisão (separatrizes)
    • 3.4 Medidas de forma (assimetria & curtose)
    • 3.5 Diferentes posições da média, moda e mediana (2\(^{o}\) quartil)
    • 3.6 Apresentação tabular de dados
      • 3.6.1 Apresentação tabular de dados qualitativos
      • 3.6.2 Apresentação tabular de dados quantitativos
      • 3.6.3 Média
      • 3.6.4 Moda
      • 3.6.5 Mediana
      • 3.6.6 Variância
      • 3.6.7 Quartis
    • 3.7 Apresentação gráfica de dados
      • 3.7.1 Gráficos para uma variável qualitativa
      • 3.7.2 Gráficos para uma variável quantitativa
  • 4 Introdução ao cálculo de probabilidades
    • 4.1 Introdução histórica
    • 4.2 Conceitos essenciais
      • 4.2.1 Experimentos determinísticos e experimentos aleatórios
      • 4.2.2 O espaço amostral
      • 4.2.3 Evento
      • 4.2.4 Probabilidade
    • 4.3 Probabilidade da união de eventos
    • 4.4 Probabilidade de eventos condicionados
    • 4.5 Dependência e independência de eventos
      • 4.5.1 Demonstração clássica de independência
      • 4.5.2 Demonstração clássica de dependência
    • 4.6 Probabilidade de eventos independentes (regra da cadeia)
    • 4.7 Teorema de Bayes
    • 4.8 Teoremas da Teoria das probabilidades
      • 4.8.1 Teorema 01
      • 4.8.2 Teorema 02
      • 4.8.3 Teorema 03
      • 4.8.4 Teorema 04
      • 4.8.5 Teorema 05
      • 4.8.6 Teorema 06
      • 4.8.7 Teorema 07
      • 4.8.8 Teorema 08
  • 5 Introdução a variáveis aleatórias
    • 5.1 Função massa de probabilidade (Probability Mass Function - PMF)
    • 5.2 Função de densidade de probabilidade (Probability Density Function - PDF)
    • 5.3 Esperança e variância de uma variável aleatória discreta
    • 5.4 Esperança e variância de uma variável aleatória contínua
  • 6 Introdução a modelos teóricos de probabilidade
    • 6.1 Modelos teóricos discretos
      • 6.1.1 Uniforme
      • 6.1.2 Bernoulli
      • 6.1.3 Binomial
      • 6.1.4 Poisson
      • 6.1.5 Multinomial
    • 6.2 Modelos téoricos do tempo de espera
      • 6.2.1 Geométrica
      • 6.2.2 Binomial Negativa
    • 6.3 Modelos teóricos contínuos
      • 6.3.1 Uniforme
      • 6.3.2 Exponencial
      • 6.3.3 Normal
      • 6.3.4 Student “t”
      • 6.3.5 Qui-Quadrado
      • 6.3.6 Fisher-Snedecor “F”
    • 6.4 Tabelas
  • 7 Introdução ao planejamento de pesquisas
    • 7.1 Planejamento de pesquisas
    • 7.2 Tipos de pesquisas
      • 7.2.1 Quanto à finalidade
      • 7.2.2 Quanto à forma de abordagem
      • 7.2.3 Quanto aos objetivos
      • 7.2.4 Quanto ao desenvolvimento no tempo
      • 7.2.5 Quanto à natureza
      • 7.2.6 Quanto à forma de obtenção dos dados
    • 7.3 Principais etapas de uma pesquisa:
      • 7.3.1 Objetivo
    • 7.4 População
    • 7.5 Censo
    • 7.6 Amostra
    • 7.7 Planejamento do levantamento amostral
    • 7.8 Elaboração dos questionários
      • 7.8.1 Tipos de perguntas:
      • 7.8.2 Execução do levantamento amostral
      • 7.8.3 Análise exploratória dos dados
      • 7.8.4 Resultados e conclusões
    • 7.9 Técnicas de amostragem
    • 7.10 Amostragem probabilística
      • 7.10.1 Amostragem aleatória simples (AAS)
      • 7.10.2 Amostragem aleatória sistemática
      • 7.10.3 Amostragem aleatória estratificada
      • 7.10.4 Amostragem aleatória por conglomerados
    • 7.11 Amostragem não probabilística
      • 7.11.1 Amostragem por conveniência
      • 7.11.2 Amostragem por cotas
    • 7.12 Dimensionamento de amostras
      • 7.12.1 Erros
      • 7.12.2 Determinação do tamanho de uma amostra para estimação da média populacional
      • 7.12.3 Determinação do tamanho de uma amostra para estimação da proporção populacional
  • 8 Introdução às estatísticas epidemiológicas
    • 8.1 Tipos de estudos epidemiológicos
    • 8.2 Estudos transversais
      • 8.2.1 Estudos de casos e controles
    • 8.3 Estudos longitudinais
      • 8.3.1 Estudos de coorte
      • 8.3.2 Estudos clínicos aleatorizados
    • 8.4 Terminologia
    • 8.5 Medidas de risco, morte, associação e correlação
      • 8.5.1 Incidência
      • 8.5.2 Prevalência
      • 8.5.3 Relação entre prevalência e incidência
      • 8.5.4 Quadro comparativo entre medidas de incidência e de prevalência
      • 8.5.5 Incidência cumulativa - IC (Risco)
      • 8.5.6 Quadro comparativo entre medidas de risco e prevalência
      • 8.5.7 Fatalidade dos Casos (FC)
    • 8.6 Sobrevida
      • 8.6.1 Taxas de mortalidade (TM)
      • 8.6.2 Taxas mais específicas
    • 8.7 Medidas de associação em estudos de coorte
      • 8.7.1 Incidência observada de nascimentos com baixo peso entre mães não expostas ao risco (não fumantes): \(I_{0}\)
      • 8.7.2 Prevalência de nascimentos com baixo peso na população estudada
      • 8.7.3 Diferença de risco (Risco atribuível - RA)
      • 8.7.4 Razão de risco (Risco relativo - RR)
      • 8.7.5 Risco atribuível proporcional (Fração etiológica - FE)
    • 8.8 Odds ratio (Razão das chances) em studos de casos e controles
    • 8.9 Correlação linear de Pearson
    • 8.10 Intervalos de confiança
      • 8.10.1 Razão de risco (Risco relativo - RR)
      • 8.10.2 Razão de chances ( odds ratio - OR)
      • 8.10.3 Diferença de risco (Risco atribuível - RA)
  • 9 Introdução à distribuição das médias e diferenças entre médias amostrais e seus intervalos de confiança
    • 9.1 Distribuições amostrais
    • 9.2 Intervalos de confiança
    • 9.3 Distribuição das médias amostrais e seus intervalos de confiança
      • 9.3.1 Fator de correção para populações finitas
      • 9.3.2 Intervalo de confiança para médias amostrais
      • 9.3.3 Intervalo de confiança bilateral para uma média amostral sob variância populacional conhecida (Figura @ref(fig:fig28))
      • 9.3.4 Intervalo de confiança para uma média amostral sob variância populacional desconhecida mas amostras não tão pequenas: \(n \ge 30\) (Figura @ref(fig:fig55))
      • 9.3.5 Intervalo de confiança para uma média amostral sob variância populacional desconhecida e amostras de qualquer tamanho (Figura @ref(fig:fig58))
    • 9.4 Distribuição das diferenças de médias amostrais independentes e seus intervalos de confiança
      • 9.4.1 Intervalos de confiança para a diferença entre duas médias amostrais com variâncias populacionais conhecidas
      • 9.4.2 Intervalos de confiança para a diferença entre duas médias amostrais com variâncias populacionais desconhecidas mas admitidas iguais
      • 9.4.3 Intervalos de confiança para a diferença entre duas médias amostrais com variâncias populacionais desconhecidas e desiguais
    • 9.5 Distribuição das diferenças de médias amostrais dependentes e seus intervalos de confiança
  • 10 Introdução à distribuição das proporções amostrais e seus intervalos de confiança
    • 10.1 Conceito elementar de uma proporção
    • 10.2 Distribuição das proporções amostrais
      • 10.2.1 Simulações ilustrativas da aproximação da distribuição das proporções amostrais pela distribuição Normal
    • 10.3 Pobabilidades associadas à observação de uma proporção amostral \(\hat{p}\)
    • 10.4 A aleatoriedade das proporções amostrais e o tamanho amostral
      • 10.4.1 Simulações ilustrativas sobre as flutuações das proporções amostrais e o erro amostral fixado
    • 10.5 Intervalos de confiança para proporções amostrais
      • 10.5.1 Intervalos de confiança para a diferença entre duas proporções amostrais
  • 11 Introdução a testes de hipóteses
    • 11.1 Filosofia da ciência
    • 11.2 História
    • 11.3 Conceitos
    • 11.4 Natureza dos erros
    • 11.5 Recomendações gerais
    • 11.6 Efeito do limite central
      • 11.6.1 Erro global
    • 11.7 Estruturas das hipóteses
      • 11.7.1 Interpretação gráfica dos níveis de significância/confiança
      • 11.7.2 Teste de hipóteses Bilateral
      • 11.7.3 Teste de hipóteses Unilateral à esquerda
      • 11.7.4 Teste de hipóteses Unilateral à direita
    • 11.8 Teste de hipóteses para uma média \(\mu\)
      • 11.8.1 Cenários possíveis
      • 11.8.2 Roteiro geral
      • 11.8.3 Probabilidade dos intervalos de confiança para os testes de hipóteses com o uso da estatística Z (\(Z \sim \mathcal{N}(0,1)\)):
      • 11.8.4 Probabilidade dos intervalos de confiança para os testes de hipóteses com o uso da estatística T (\(T\sim t_{(n-1)}\)):
    • 11.9 Teste de hipóteses para as médias (\(\mu_{1};\mu_{2}\)) de duas populações Normais independentes
      • 11.9.1 As estruturas possíveis dos testes de hipóteses relacionados às suas médias serão:
      • 11.9.2 Testes de hipóteses para as médias de duas populações com variâncias conhecidas (ou não conhecidas mas o tamanho das amostras é grande)
      • 11.9.3 Testes de hipóteses para as médias de duas populações Normais independentes com variâncias desconhecidas mas iguais: teste “t’’ homocedástico (\(\sigma_{1}^{2}=\sigma_{2}^{2}=?\))
      • 11.9.4 Teste de hipóteses para a razão de duas variâncias (\(\frac{\sigma_{1}^{2}}{\sigma_{2}^{2}}\))
      • 11.9.5 Teste de hipóteses para as médias de duas populações Normais independentes com variâncias desconhecidas e desiguais: teste “``t’’ heterocedástico (\(\sigma_{1}^{2} \neq \sigma_{2}^{2}=?\))
    • 11.10 Teste de hipóteses para uma proporção \(\pi\)
      • 11.10.1 Estruturas possíveis para as hipóteses
      • 11.10.2 Probabilidade dos intervalos de confiança para os testes de hipóteses com o uso da estatística Z (\(Z \sim \mathcal{N}(0,1)\)):
    • 11.11 Testes não paramétricos
      • 11.11.1 Teste Qui-quadrado para verificação da independência (homogeneidade)
      • 11.11.2 Correção de continuidade em tabelas 2x2
      • 11.11.3 Coeficiente de contingência de Pearson (modificado: \(C^{*})\) }
      • 11.11.4 Teste Qui-quadrado para verificação da qualidade do ajuste a uma distribuição teórica de probabilidade
      • 11.11.5 Teste de significância para as médias de duas populações dependentes
    • 11.12 Fluxograma auxiliar para escolha da estatística do teste de hipóteses
    • 11.13 Tabelas
  • 12 Introdução à Correlação Linear de Pearson e Regressão Linear Simples
    • 12.1 Contexto histórico
    • 12.2 Conceitos
      • 12.2.1 Correlação linear versus regressão
      • 12.2.2 Correlação versus causação
    • 12.3 Diagrama de dispersão
    • 12.4 Coeficiente de correlação linear de Pearson
    • 12.5 Teste de hipóteses para a correlação linear na população
      • 12.5.1 Outros testes de hipóteses sobre a correlação linear na população
    • 12.6 Regressão linear simples
      • 12.6.1 Introdução
      • 12.6.2 Método dos mínimos quadrados
    • 12.7 Modelo de regressão linear sob erros Normais
      • 12.7.1 Propriedades dos Estimadores sob Erro Normal
      • 12.7.2 Implicações da Normalidade
      • 12.7.3 Linearidade na relação entre a variável preditora \(X\) e a variável resposta \(Y\):
      • 12.7.4 Homogeneidade da variância de \(\varepsilon\) (homocedasticidade):
      • 12.7.5 Inconsistência de observações (outliers)
      • 12.7.6 Pontos influentes com capacidade de alavanca (leverage):
      • 12.7.7 Independência
      • 12.7.8 Normalidade
      • 12.7.9 Variáveis omitidas do modelo
    • 12.8 Teste de significância (global) do modelo
    • 12.9 Teste de hipóteses para o coef. angular \(\beta\)
    • 12.10 Teste de hipóteses para o coef. angular \(\alpha\)
    • 12.11 Coeficiente de determinação \(R^{2}\)
    • 12.12 Intervalos de confiança
      • 12.12.1 Intervalos de confiança nos modelos de regressão linear simples
    • 12.13 (SIMULADOR 2 COM t)
    • 12.14 Verificações gráficas (visuais) das premissas do MMQO
    • 12.15 Verificações adicionais
  • 13 Introdução à modelagem de processos estocásticos
    • 13.1 Modelos determinísticos e estocásticos
    • 13.2 Dedução e indução
    • 13.3 Processos estocásticos temporais, espaciais e espaçotemporais
      • 13.3.1 Processos Estocásticos Temporais
      • 13.3.2 Processos Estocásticos Espaciais
      • 13.3.3 Processos Estocásticos Espaçotemporais
    • 13.4 Processo de Poisson
      • 13.4.1 Natureza
      • 13.4.2 Processo de Poisson com classificação de eventos
      • 13.4.3 Processos de Poisson não homogêneos
      • 13.4.4 Tempo de espera em um processo de Poisson
      • 13.4.5 Distribuição condicional dos tempos de chegada
    • 13.5 Simulações Monte Carlo
      • 13.5.1 Introdução
      • 13.5.2 Fundamentação
      • 13.5.3 Números Aleatórios e Pseudoaleatórios
      • 13.5.4 Geração de amostras aleatórias de distribuições de probabilidade
      • 13.5.5 Exemplo 1 (Goodwin e Wright, 2009)
      • 13.5.6 Exemplo 2: The Elite Pottery Company (Goodwin e Wright, 2009)
      • 13.5.7 Exemplo 3: Integração Numérica Usando o Método de Monte Carlo
  • 14 Orientações Gerais
    • 14.1 Informações administrativas
      • 14.1.1 Regimento geral da UEL
      • 14.1.2 Amparos e apoios na UEL
      • 14.1.3 Tutoriais para os estudantes da graduação da UEL
    • 14.2 Programas de atividade acadêmica
      • 14.2.1 Geografia: 1STA004 - Estatística Aplicada à Geografia
      • 14.2.2 Química: 2STA032 - Estatística
      • 14.2.3 Farmácia: 2STA010 - Elementos de bioestatística
      • 14.2.4 Computação: 2STA030 - Estatística
      • 14.2.5 Engenharia Civil: 2STA016 - Estatística e probabilidades
      • 14.2.6 Ciência de dados e Inteligência Artifical: 2STA011 - Probabilidade
  • FJCosta Github

UNIVERSIDADE ESTADUAL DE LONDRINA
CCE - Centro de Ciências Exatas
DSTA - Departamento de Estatística (sala 11)
Prof. M.e Eng.\(^{o}\) Felinto Junior Da Costa
fjcosta@uel.br

1.7 Estatística e machine learning : uma livre tradução deste link


Autor: estatístico anônimo

Figure 1.26: Autor: estatístico anônimo


Para se raciocinar rigorosamente sob incerteza, precisamos invocar a linguagem da probabilidade (Zhang et al. 2020). Qualquer modelo que não forneça a quantificação da incerteza associada ao seu resultado provavelmente produzirá uma imagem incompleta e potencialmente enganosa.


Embora este seja um consenso irrevogável na estatística, um equívoco comum, embora muito persistente, é que os algoritmos de machine learning geralmente carecem de formas adequadas de quantificar a incerteza.


Apesar do fato dos dois termos existirem em paralelo e serem indistintamente utilizados, a percepção de que algoritmos de machine learning e a estatística implicam um conjunto de técnicas não sobrepostas permanece viva, tanto entre profissionais como acadêmicos.


Isso é vividamente retratado pela declaração provocativa (e potencialmente irônica) de Brian D. Ripley de que “o aprendizado de máquina é estatística menos qualquer verificação de modelos e suposições” que ele fez durante a “useR! 2004”, conferência de Viena que serviu para ilustrar a diferença entre aprendizado de máquina e estatística.


Na verdade, a relação entre estatística e algoritmos de machine learning é artificialmente complicada por tais afirmações e, na melhor das hipóteses, isto é lamentável, pois implica numa distinção profunda e qualitativa entre as duas disciplinas (Januschowski et al. 2020). O artigo de Leo Breiman (2001) é uma exceção notável, pois propõe diferenciar os dois com base na cultura científica, e não apenas nos métodos.


Embora as abordagens discutidas em Breiman (2001) constituam uma divisão admissível do espaço de análise e modelação de dados, os avanços mais recentes tornaram gradualmente esta distinção menos clara.


Na verdade, a tendência atual de investigação tanto em estatística com algoritmos de machine learning gravita no sentido de aproximar ambas as disciplinas. Numa era de necessidade crescente de que os resultados dos modelos de previsão sejam transformados em conhecimentos explicáveis e confiáveis, este é um desenvolvimento extremamente promissor e encorajador, uma vez que ambas as disciplinas têm muito a aprender uma com a outra. Junto com Januschowski et al. (2020) , argumentamos que é mais construtivo procurar um terreno comum do que introduzir fronteiras artificiais.