Blog Detail

  • Home
  • Штраф одна сплошная: Пересечение сплошной линии разметки: последствия для водителя — Оренбург

Штраф одна сплошная: Пересечение сплошной линии разметки: последствия для водителя — Оренбург

лекция1

 

Лекция
1
Типы весов и уровни измерения

Дискретные и
непрерывные переменные
В тексте Даниэля различаются дискретные и непрерывные переменные. Эти
являются техническими различиями, которые не будут так важны для нас в этом
учебный класс. Согласно тексту, дискретные переменные — это переменные, в которых
промежуточные значения невозможны. Например, количество телефонных звонков.
вы получаете в день. Вы не можете принимать телефонные звонки 6.3. Непрерывные переменные
все остальное; любая переменная, которая теоретически может иметь значения между
баллы (например, от 153 до 154 фунтов). Оказывается, это
не все, что полезно различия для наших целей. Что на самом деле больше
важным для статистических соображений является уровень измерения
использовал. Когда я говорю, что это более важно, я действительно преуменьшаю это.
Понимание уровня измерения переменной (или шкалы, или меры)
Первое и самое важное различие, которое необходимо сделать о переменной, когда
занимаюсь статистикой!

Уровни
измерения
Статистики часто ссылаются на «уровни измерения»
переменная, мера или шкала, чтобы различать измеряемые переменные, которые
имеют разные свойства. Различают четыре основных уровня: номинальный, порядковый,
интервал и отношение.

Номинальная
Переменная, измеренная по «номинальной» шкале,
переменная, которая на самом деле не имеет никакого оценочного различия. Одно значение
на самом деле не больше, чем другой. Хорошим примером номинальной переменной является
пол (или пол). Информация в наборе данных о поле обычно кодируется как 0 или 1, 1.
указывает на мужчину и 0 указывает на женщину (или наоборот — 0 для мужчин, 1
для женского пола). 1 в данном случае является произвольным значением и не больше и не больше.
лучше, чем 0. Между 0 и 1 существует только номинальная разница. При номинальном
переменных, существует качественная разница между значениями, а не количественная
один.

Порядковый номер
Нечто, измеряемое по «порядковой» шкале
имеет оценочный оттенок. Одно значение на больше или больше или лучше
чем другой. Продукт А предпочтительнее продукта Б, поэтому А получает
значение 1, а B получает значение 2. Другим примером может быть оценка вашего
удовлетворенность работой по шкале от 1 до 10, где 10 означает полное
удовлетворение. С порядковыми шкалами мы знаем только, что 2 равно
лучше 1 или 10 лучше 9; мы не знаем, насколько. Это может варьироваться. Расстояние между 1 и 2 может быть короче, чем между 9и 10.

Интервал
Переменная, измеренная по интервальной шкале, дает
информация о большем или лучшем качестве порядкового номера
шкалы делают, но интервальные переменные имеют одинаковое расстояние между каждым значением.
Расстояние между 1 и 2 равно расстоянию между 9 и 10.
Хорошим примером является температура в градусах Цельсия или Фаренгейта.
такая же разница между 100 градусами и 90, как и между 42 и 32.

отношение
свойства, которыми обладает интервальная шкала, за исключением того, что при масштабировании отношений
абсолютный нуль. Примером является температура, измеряемая в градусах Кельвина. Здесь нет
возможное значение ниже 0 градусов Кельвина, это абсолютный ноль. вес это другое
например, 0 фунтов. является осмысленным отсутствием веса. Баланс вашего банковского счета составляет
еще один. Хотя у вас может быть отрицательный или положительный баланс счета, существует
определенное и непроизвольное значение счета
остаток 0.

Можно думать о номинальном, порядковом,
интервал и отношение как ранжированные по отношению друг к другу. Соотношение
более сложный, чем интервал, интервал более сложный, чем порядковый номер,
и порядковый более сложный, чем номинальный. Я не знаю, есть ли ранги
равноудалены или нет, вероятно, нет. Так что же это за уровень измерения?
ранжирование уровней измерения?? Я бы сказал порядковый. В статистике лучше быть
немного консервативен, когда сомневаешься.

Два
Общие классы переменных (кого это волнует?)
Хорошо, помните, я сказал, что это первое и самое важное отличие
при использовании статистики? Вот почему. В большинстве случаев статистики или
исследователи кончают тем, что заботятся только о разнице между номинальными и всеми
другие. Как правило, существует два класса статистики: те, которые имеют дело с
номинальные зависимые переменные и те, что имеют дело с порядковыми, интервальными,
или относительные переменные. (Сейчас мы сосредоточимся на зависимой переменной и
позже мы обсудим независимую переменную). Когда я описываю эти типы
два общих класса переменных, я (и многие другие) обычно называю их
«категорический» и «непрерывный». (Иногда я буду использовать «дихотомический»
вместо «категорический»). Отметим также, что
«непрерывный» в этом смысле не совсем то же самое, что
«непрерывный» используется в главе 1 текста при различении
между дискретным и непрерывным. Это гораздо более свободный термин. Категоричность и
дихотомические обычно означают, что шкала является номинальной. «Непрерывный»
переменные обычно являются порядковыми или лучше.

Порядковые шкалы с несколькими категориями
(2,3 или, возможно, 4), а номинальные меры часто классифицируются как категориальные.
и анализируются с использованием биномиального класса статистических тестов, тогда как порядковые
шкалы со многими категориями (5 или более), интервалом и отношением, как правило,
проанализированы с помощью нормального теоретического класса статистических тестов. Хотя различие несколько размыто
во-первых, это часто очень полезное различие для выбора правильного статистического
тест. Существует ряд специальных
статистика, которая была разработана для работы с порядковыми переменными с
несколько возможных значений, но мы не собираемся рассматривать их в этом классе (см. Агрести, 1984, 1990; ОКоннелл, 2006 г.; Уикенс,
1989 для получения дополнительной информации об анализе порядковых переменных).

Общие классы
Статистика (О, думаю, мне все равно)
Итак, у нас есть эти две общие категории (т. е. непрерывная и категоричная),
что дальше? Ну, это различие (как бы нечетко оно ни звучало) имеет очень важное значение.
последствия для типа используемой статистической процедуры, и мы будем делать
решения, основанные на этом различии на протяжении всего курса . Есть
два общих класса статистики: основанные на биномиальная теория и
те, которые основаны на нормальной теории . Хи-квадрат и логистическая регрессия
с биномиальной теорией или биномиальными распределениями и t-тестами,
ANOVA, корреляция и регрессия имеют дело с нормальной теорией. Итак, вот таблица
обобщить.

 

Тип зависимого
Переменная (или шкала)

Уровень
Измерение

Общий класс
Статистика
(биномиальная или нормальная
Теория)

Примеры
Статистические процедуры

Категориальный (или дихотомический)

номинальный, порядковый номер с 2, 3 или 4
уровни

бином

хи-квадрат, логистическая регрессия

Непрерывный

порядковый номер с более чем 4
категории

обычный

Дисперсионный анализ, регрессия, корреляция, t-критерий

 

 Опрос
Вопросы и меры: некоторые распространенные примеры
На практике исследователи
и проблемы исследования реальной жизни не говорят вам, как зависимая переменная
должны быть разделены на категории, поэтому я обозначу несколько типов вопросов для опроса или
другие общепринятые меры.

Да/Нет
Вопросы
. Любой вопрос в опросе, на который можно ответить да или нет, является номинальным,
и поэтому биномиальная статистика будет применяться всякий раз, когда будет задан один вопрос «да/нет».
служит зависимой переменной или одной из зависимых переменных в
анализ.

Шкала Лайкерта
В опросе особого типа используется набор
ответы, упорядоченные таким образом, что один ответ больше другого.
термин Шкала Лайкерта названа в честь изобретателя,
Ренсис Лайкерт, чье имя
произносится как «Ликерт». Как правило, это
термин используется для любого вопроса, который имеет около 5 или более возможных вариантов. Ан
Примером может быть: «Как бы вы оценили администратора вашего отдела?»
1=очень некомпетентен, 2=несколько некомпетентен, 3=не компетентен, 4=несколько
компетентный или 5 = очень компетентный. шкалы Лайкерта
либо порядковый, либо интервальный, и многие психометристы
утверждал бы, что они являются интервальными шкалами, потому что, когда они хорошо построены,
является равным расстоянием между каждым значением. Итак, если Лайкерт
шкала используется в качестве зависимой переменной в анализе, обычная статистика теории
используются, например, дисперсионный анализ или регрессия.

Физический
Меры
Большинство физических мер, таких как
рост, вес, систолическое артериальное давление, расстояние и т. д., являются интервалом или соотношением
шкалы, поэтому они попадают в общую «непрерывную»
категория. Поэтому статистика типа нормальной теории также используется, когда такая мера служит зависимой переменной в анализе.
анализ.

Подсчеты
Подсчеты сложны. Если переменная измеряется счетом, например, если
Исследователь подсчитывает количество дней, в течение которых пациент находился в больнице.
госпитализации, переменная находится на шкале отношений и рассматривается как непрерывная
переменная. Однако часто рекомендуются специальные статистические данные, т.к.
переменные часто имеют очень асимметричное распределение с
большое количество случаев с нулевым счетом (см. Agresti,
1990, с. 125; Коэн, Коэн, Уэст и Айкен, 2003 г., глава 13). Если исследователь подсчитывает количество
субъектов в эксперименте (или количество случаев в наборе данных), непрерывный
мера типа на самом деле не используется. Подсчет в этом случае действительно
изучение частоты появления некоторого значения переменной. Например,
подсчет количества субъектов в наборе данных, которые сообщают, что
госпитализированных в прошлом году, зависит от дихотомической переменной в наборе данных
что означает пребывание в больнице или отсутствие госпитализации (например, из
например, «были ли вы госпитализированы в течение последнего года?»).
Даже если подсчитать количество случаев на основе вопроса «как
много дней в прошлом году вы были госпитализированы», что является
непрерывная мера, переменная, используемая в анализе, на самом деле не является
непрерывная переменная. Вместо этого исследователь будет фактически анализировать
дихотомическую переменную путем подсчета числа людей, не
госпитализированных в прошлом году (0 дней) по сравнению с теми, кто был (1 или более
дней).

Непрерывные переменные | Как обращаться с непрерывными переменными

Введение

Давайте сразу перейдем к делу — вы видите только 2 типа переменных — непрерывные и дискретные. Далее дискретные переменные можно разделить на номинальные (категориальные) и порядковые. На прошлой неделе мы опубликовали пост о том, как обрабатывать категориальные переменные, так что вы ожидаете аналогичный пост о непрерывных переменных. Да, вы правы. В этой статье мы объясним все возможные способы работы с непрерывными переменными для новичка при выполнении машинного обучения или статистического моделирования.

Но прежде чем мы начнем, обо всем по порядку.

Что такое непрерывные переменные?

Проще говоря, если переменная может принимать любое значение между минимальным и максимальным значением, то она называется непрерывной переменной. По своей природе многие вещи, с которыми мы имеем дело, попадают в эту категорию: возраст, вес, рост — вот некоторые из них.

Просто чтобы убедиться, что разница ясна, позвольте мне попросить вас классифицировать, является ли переменная непрерывной или категориальной:

  1. Пол человека
  2. Количество братьев и сестер лица
  3. Время работы ноутбука от батареи

Пожалуйста, напишите свои ответы в комментариях ниже.

 

Как работать с непрерывными переменными?

В то время как с непрерывными переменными легко сопоставляться, природа в некотором роде такова. Они обычно более сложны с точки зрения прогнозного моделирования. Почему я так говорю? Это потому, что возможное количество способов, которыми они могут быть обработаны.

Например, если я попрошу вас проанализировать проникновение в спорт по полу, это несложное упражнение. Вы можете посмотреть на процент мужчин и женщин, занимающихся спортом, и увидеть, есть ли разница. А что, если я попрошу вас проанализировать проникновение в спорт по возрасту? Сколько возможных способов вы можете придумать, чтобы проанализировать это — путем создания бинов/интервалов, построения графиков, преобразования и так далее!

Следовательно, обработка непрерывной переменной обычно является более осознанным и трудным выбором. Следовательно, эта статья должна быть чрезвычайно полезна для начинающих.

 

Методы работы с непрерывными переменными

Биннинг переменной:

Биннинг — это разделение списка непрерывных переменных на группы. Это делается для обнаружения набора закономерностей в непрерывных переменных, которые трудно проанализировать иначе. Кроме того, бункеры легко анализировать и интерпретировать. Но это также приводит к потере информации и потере мощности. После создания бинов информация сжимается в группы, что позже влияет на окончательную модель. Следовательно, желательно изначально создавать небольшие бункеры.

Это поможет свести к минимуму потерю информации и даст лучшие результаты. Однако я сталкивался со случаями, когда маленькие корзины не помогали. В таких случаях вы должны выбрать размер бина в соответствии с вашей гипотезой. Мы должны рассмотреть распределение данных до принятия решения о размере бина.

Например: Давайте возьмем встроенный набор данных state. x77 в R для создания бинов:

 #загрузить данные
данные <- data.frame(state.x77) 
 #проверить данные
голова (данные) 
 #постройте переменную Frost и проверьте, все ли точки данных заполнены
qplot(y = Frost, данные = данные, цвет = «синий») 
 #use cut() для создания контейнеров одинакового размера
bins <- cut(data$Frost, 3, include.lowest = TRUE)
бункеры 
 #добавить этикетки в корзины
bins <- cut(data$Frost, 3, include.lowest = TRUE, labels = c('Low','Medium','High'))
бункеры 

 

Нормализация:

Проще говоря, это процесс сравнения переменных по «нейтральной» или «стандартной» шкале. Это помогает получить одинаковый диапазон значений. Нормально распределенные данные легко читать и интерпретировать. Как показано ниже, в нормально распределенных данных 99,7% наблюдений лежат в пределах 3 стандартных отклонений от среднего значения. Кроме того, среднее значение равно нулю, а стандартное отклонение равно единице. Техника нормализации обычно используется в таких алгоритмах, как k-средние, кластеризация и т. д.

Широко используемый метод нормализации — z-значения. Z-показатель наблюдения — это количество стандартных отклонений, на которое оно падает выше или ниже среднего значения. Его формула показана ниже.

x = наблюдение, μ = среднее значение (популяция), σ = стандартное отклонение (популяция)

Например: Рэнди набрал 76 баллов по математике. Кэти набрала 86 баллов в тесте по естествознанию. Математический тест имеет (среднее значение = 70, стандартное отклонение = 2). Научный тест имеет (среднее значение = 80, стандартное отклонение = 3). Кто забил лучше? Вы не можете сказать, что Кэти лучше, так как ее оценка намного выше средней. Поскольку оба значения находятся в разных масштабах, мы нормализуем эти значения по шкале z и оценим их производительность.

z(Рэнди) = (76 – 70)/2 = 3

z(Кэти) = (86 – 80)/3 = 2

Интерпретация: Следовательно, мы делаем вывод, что Рэнди набрал больше очков, чем Кэти. Потому что его оценка на 3 стандартных отклонения от среднего значения класса, тогда как оценка Кэти всего на 2 стандартных отклонения от среднего.

 

Преобразования для искаженного распределения:

Преобразование требуется, когда мы сталкиваемся с сильно искаженными данными. Предлагается не работать с искаженными данными в необработанном виде. Потому что это снижает влияние низкочастотных значений, которые могут быть столь же значительными. Иногда на асимметрию влияет наличие выбросов. Следовательно, мы должны быть осторожны при использовании этого подхода. Техника работы с выбросами объясняется в следующих разделах.

Существуют различные методы трансформации. Некоторые из них: Log, sqrt, exp, Box-cox, power и т. Д. Обычно используется метод Log Transformation. Давайте разберемся в этом на примере.

Например: У меня 22 ученика. Я наношу их баллы и обнаруживаю, что распределение остается асимметричным. Чтобы уменьшить асимметрию, я использую логарифмическое преобразование (показано ниже). Как видите, после преобразования данные больше не искажены и готовы к дальнейшей обработке.

Использование бизнес-логики:

Business Logic повышает точность вывода модели. Данные сами по себе не могут подсказать вам закономерности, которые может дать понимание их бизнеса. Следовательно, в компаниях специалисты по данным часто предпочитают проводить время с клиентами и понимать их бизнес и рынок. Это не только помогает им принять взвешенное решение. Но также позволяет им мыслить вне данных. Как только вы начинаете думать, вы больше не ограничены данными.

Например: Вы работаете с набором данных из Авиакомпании. Вы должны выяснить тенденции, поведение и другие параметры до моделирования данных.

 

Новые возможности:

Когда у вас есть бизнес-логика, вы готовы делать умные шаги. Часто специалисты по данным ограничиваются предоставленными данными. Они не умеют думать по-другому. Им не удается проанализировать скрытые закономерности в данных и создать новые переменные. Но вы должны практиковать это движение. Вы не сможете создавать новые функции, если не изучите данные до глубины души. Этот метод помогает нам добавить более релевантную информацию в нашу окончательную модель. Следовательно, мы получаем увеличение точности.

Например:  У меня есть набор данных со следующими переменными: возраст, пол, рост, вес, площадь, группа крови, дата рождения. Здесь мы можем использовать наши знания предметной области. Мы знаем, что (рост * вес) может дать нам индекс ИМТ. Следовательно, мы создадим HW = (Высота * Вес) в качестве новой переменной. HW — это не что иное, как ИМТ (индекс массы тела). Точно так же вы можете думать о новых переменных в вашем наборе данных.

 

Обработка выбросов:

Данные подвержены выбросам. Выброс — это аномальное значение, которое стоит отдельно от остальных точек данных. Это может произойти по разным причинам. Наиболее распространенная причина – проблемы, связанные с методами сбора данных. Иногда респонденты намеренно дают неправильные ответы; или значения на самом деле реальны. Тогда как мы решим? Можно любым из этих способов:

  1. Создайте блочную диаграмму. Вы получите Q1, Q2 и Q3. ( точки данных > Q3 + 1,5IQR ) и ( точки данных < Q1 – 1,5IQR ) будут считаться выбросами. IQR – межквартильный диапазон. IQR = Q3-Q1
  2. Принимая во внимание объем анализа, вы можете удалить верхний 1% и нижний 1% значений. Однако это приведет к потере информации. Следовательно, вы должны проверить влияние этих значений на зависимую переменную.

Обработка выбросов — непростая ситуация, когда вам нужно сочетать понимание бизнеса и понимание данных. Например, если вы имеете дело с возрастом людей и видите значение age = 200 (в годах), ошибка, скорее всего, происходит из-за того, что данные были собраны неправильно, или человек ввел возраст в месяцах. В зависимости от того, что вы считаете вероятным, вы либо удалите (в случае одного), либо замените на 200/12 лет.

 

Анализ основных компонентов:

Иногда в наборе данных слишком много переменных. Может быть, 100, 200 переменных или даже больше. В таких случаях нельзя построить модель на всех переменных. Причина в том, 1) Это займет много времени. 2) Может быть много шума 3) Множество переменных дадут одинаковую информацию

Следовательно, чтобы избежать такой ситуации, мы используем PCA, также известный как анализ основных компонентов. Это не что иное, как обнаружение нескольких « основных » переменных, которые объясняют значительное количество изменений в зависимой переменной. Используя этот метод, большое количество переменных сводится к нескольким значимым переменным. Этот метод помогает уменьшить шум, избыточность и позволяет выполнять быстрые вычисления.

В PCA компоненты представлены PC1 или Comp 1, PC2 или Comp 2 и так далее. Здесь ПК1 будет иметь наибольшую дисперсию, за ней следуют ПК2, ПК3 и так далее. Нашей целью должен быть выбор компонентов с собственными значениями больше 1. Собственные значения представлены «стандартным отклонением». Давайте проверим это в R ниже:

 # установить рабочий каталог
>setwd('C:/Пользователи/manish/рабочий стол/Данные') 
 #загрузить данные из пакета
>данные(Бостон, пакет = 'МАСС') 
 >мои данные <- Бостон 
 # описательная статистика
>резюме(мои данные) 
 #проверьте таблицу корреляции и проанализируйте, какие переменные сильно коррелированы.
>кор(моиДанные) 
 #Анализ основных компонентов
>pcaData <- princomp(myData, scores = TRUE, cor = TRUE)
>резюме(pcaData)
#проверьте, что var comp1 > comp2 и так далее. И мы находим, что Comp 1, Comp 2 # и Comp3 имеют значения выше 1 

.

 #loadings — представляет вклад переменных в каждый фактор. выше
#Число выше - это вклад конкретной переменной в фактор
>загрузки(pcaData) 
 #screeplot собственных значений (значение стандартного отклонения считается собственным значением)
>screeplot(pcaData, type = 'line', main = 'Screeplot') 
 #Биплот переменных оценки
>двойной сюжет (pcaData) 
 #Оценки компонентов
>pcaData$scores[1:10,] 

 

Факторный анализ:

Факторный анализ был изобретен Чарльзом Спирменом (1904). Это техника переменного сокращения. Он используется для определения факторной структуры или модели. Это также объясняет максимальное количество дисперсии в модели. Допустим, некоторые переменные сильно коррелированы. Эти переменные могут быть сгруппированы по их корреляциям, то есть все переменные в конкретной группе могут быть сильно коррелированы между собой, но иметь низкую корреляцию с переменными другой группы (групп). Здесь каждая группа представляет одну базовую конструкцию или фактор. Факторный анализ бывает двух видов:

  1. EFA (исследовательский факторный анализ) — определяет и обобщает базовую структуру корреляции в наборе данных
  2. CFA (подтверждающий факторный анализ) — пытается подтвердить гипотезу, используя структуру корреляции и оценивая «добротность соответствия».

Давайте проведем исследовательский анализ в R. Поскольку мы ранее запускали PCA, мы сделали вывод, что Comp 1, Comp 2 и Comp 3. Теперь мы идентифицировали компоненты. Ниже приведен код EFA:

.

 # Исследовательский факторный анализ
#Используя PCA, мы определили 3 фактора - Comp 1, Comp 2 и Comp 3.
>pcaFac <- factanal(myData, факторы = 3, ротация = 'varimax')
>пкаФак 
 #Чтобы найти количество факторов
>pcaFac.scores <- factanal(myData,
                           факторы = 3,
                           вращение = 'варимакс',
                           баллы = «регрессия»
                           )
>pcaFac.scores
>pcaFac.scores$scores[1:10,] 

Примечание. Вращение VARIMAX включает сдвиг координат, который максимизирует сумму отклонений квадратов нагрузок. Он вращает выравнивание координат ортогонально.

 

Методы работы с переменной даты и времени

Наличие переменной Data Time в наборе данных обычно дает большую уверенность. Серьезно! Оно делает. Потому что в переменной данных-времени вы получаете много возможностей для практики методов, изученных выше. Вы можете создавать бины, создавать новые функции, преобразовывать их тип и т.  д. Дата и время обычно находятся в следующем формате:

.

ДД-ММ-ГГГ ЧЧ:СС или ММ-ДД-ГГГ ЧЧ:СС

Принимая во внимание этот формат, давайте быстро рассмотрим методы, которые вы можете использовать при работе с переменными данных и времени:

Создать новые переменные:

Посмотрите на формат даты выше. Я уверен, что вы без труда разберетесь с возможными новыми переменными. Если вы еще не разобрались, не беда. Позвольте мне сказать вам. Мы можем легко разбить формат на разные переменные, а именно:

  1. Дата
  2. Месяц
  3. Год
  4. Время
  5. Дни месяца
  6. Дни недели
  7. дней года

Я перечислил возможные варианты. Вам не обязательно создавать все перечисленные переменные в каждой ситуации. Создавайте только те переменные, которые синхронизируются только с вашей гипотезой. Каждая переменная будет иметь влияние (высокое/низкое) на зависимую переменную. Вы можете проверить это с помощью корреляционной матрицы.

 

Создать корзины:

После того, как вы извлекли новые переменные, теперь вы можете создавать бины. Например: у вас есть переменная «Месяцы». Вы можете легко создавать интервалы для получения «квартальных», «полугодовых» переменных. В «Днях» вы можете создавать корзины для получения «будних дней». Точно так же вам придется исследовать эти переменные. Попробуйте и повторите. Кто знает, может быть, вы найдете самую важную переменную.

 

Преобразование даты в числа:

Вы также можете преобразовать дату в числа и использовать их как числовые переменные. Это позволит вам анализировать даты, используя различные статистические методы, такие как корреляция. В противном случае это было бы трудно осуществить. На основе их реакции на зависимую переменную вы можете затем создать их ячейки и зафиксировать еще одну важную тенденцию в данных.

 

Основы даты и времени в R

Существует три хороших варианта для типов данных даты и времени: встроенный POSIXt, пакет chron, пакет lubridate. POSIXt имеет два типа, а именно POSIXct и POSIXlt. «ct» может обозначать календарное время, а «lt» — местное время.

 # создать дату
as.Date("2015-12-1") 
 # указать формат
as.Date("30.11.2015", формат = "%m/%d/%Y") 
 # обратите внимание - Sys.Date() дает текущую дату
Sys.Date() - as.Date("2014-12-01") 
 #использование POSIXlt — найти текущее время
as.POSIXlt(Sys.time()) 
 # находит класс каждого компонента времени данных
unclass(as.POSIXlt(Sys.time())) 
 # создать переменные POSIXct
as.POSIXct("080406 10:11", format = "%y%m%d %H:%M") 
 # преобразовать переменные POSIXct в символьные строки
format(as.POSIXct("080406 10:11", format = "%y%m%d %H:%M"), "%m/%d/%Y %I:%M %p") 

Конечные примечания

Вы не сможете исследовать данные, если не проявите любопытство и терпение. Некоторые люди рождаются с ними. Некоторые приобретают их с опытом. В любом случае, перечисленные выше методы помогут вам исследовать непрерывные переменные на любом уровне.

Write a comment