The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Индекс форумов
Составление сообщения

Исходное сообщение
"Для Fedora утверждён метод подсчёта пользователей, не исполь..."
Отправлено Ordu, 06-Фев-19 15:30 
>> Представь что тебе приходят запросы на обновление раз в месяц. Но в
>> чётные месяцы они приходят с ip x.x.x.x, а в нечётные с
>> y.y.y.y. Сколько установок прячется за этими запросами? Две или одна?
> очевидно - если оба раза качается примерно одно и то же -
> две. Если никогда не повторяется, или, редко, тут же повторяется(это обломилось
> почему-то скачивание) - одна.

Что значит "примерно одно и то же"? Ты можешь написать алгоритм, который сможет отличить "примерно одно и то же" от "совсем по разному"? По какому признаку ты будешь различать? Запишешь для каждого пакета в репозитории 1 если он установлен, 0 если он не установлен, получишь для каждого обновления вектора из 1 и 0, а потом будешь считать расстояние между ними? В какой метрике ты будешь считать расстояние? Какое расстояние должно быть, чтобы принять решение, что "примерно одно и то же"? И если у тебя есть ответы на эти вопросы, от откуда эти ответы взялись? Почему ты веришь в то, что они правильные?

Когда-то в середине XX столетия учёные считали, что компьютерное зрение -- это легко и просто. Надо лишь найти студента поумнее, и дать ему задачу написать программу компьютерного зрения. Ха-ха. Мы знаем чем это кончилось. Только сейчас (более чем через полвека с тех пор) у компьютеров стало получаться что-то похожее на зрение, но даже сейчас сложно сказать, когда компьютерное зрение превзойдёт человеческое. Через десять лет? Через пятьдесят?

Это иллюзия простоты, которая возникает из-за того, что основная работа по обработке информации выполняемая твоим мозгом, выполняется им незаметно для тебя. Ты получаешь результат -- "примерно одно и то же" или картинку окружающего мира в сознании, -- и ты не замечаешь никаких усилий, которые пришлось приложить, чтобы этот результат получить. Поэтому тебе кажется, что всё просто. Но за результатами, которые есть у тебя в психике, стоят десятки миллиардов нейронов, которые тренировались делать то, что они делают десятки лет. И не всё, что твоим нейронам даётся просто, будет просто реализовать алгоритмически.

>> Откуда мы знаем, что он редкий? Мы не знаем. Мы *предполагаем*, что
> из бритвы оккама, да.

Философские бритвы довольно остры, ими порезаться можно нечаянно. Можно ведь просто заявить "у нас 200000 установок", это утверждение ничему не противоречит, оно вполне объясняет наблюдаемые данные, зачем выдумывать дополнительные сущности, считать ip'шники, тратить ресурсы?

Бритву Оккама применяют только после того, как были предприняты усилия по поиску свидетельств существования, и эти усилия оказались бесплодными.

> Ну и из основного отличия науки от ненауки - научная теория позволяет
> делать правильные прогнозы, а если прогноз неправильный - мы либо вышли
> из граничных условий, либо теория неверна.

Как ты отличишь правильные прогнозы от неправильных в данном случае? Вот ты померял и сказал, у нас есть 200000 установок. Как узнать, правильно ли это или не правильно? А если ты не можешь проверить, то откуда ты знаешь, что твоя теория научна?

Плюс, ты ведь понимаешь, что наличие правильных прогнозов -- это не единственное необходимое свойство для научной теории? Есть ещё, например, отсутствие неправильных прогнозов, то есть если мы напряжёмся, подумаем головой как следует, и придумаем все прогнозы, которые возможно сделать с опорой на нашу теорию, то среди них не должно быть ошибочных. Но как ты можешь быть уверенным в том, что ты уже придумал все возможные прогнозы? Никак. Единственное что можно -- это сделать много прогнозов, и проверить их все. Если они все работают, то это вселяет некоторую уверенность. Ну и наконец основной критерий научности теории -- это то, что она может выстоять в научном диспуте. А в нём, я тебя заверяю, если ты откажешься проверять гипотезу "потому что бритва Оккама", то аудитория твоих слушателей просто встанет и пойдёт пить кофе, ожидая следующего докладчика. Ну, есть конечно шансы напороться на IRL-тролля, который начнёт развлекаться, задавая тебе много неудобных вопросов (я видел примеры такому), но в любом случае, про твою теорию забудут сразу, как только твоё время закончится.

>>> там суть-то в том что по этим признакам ищут потом проблему в
>>> обновлении, если она была. И раз, как правило, находят - значит
>>> смысл в сборе именно такой информации есть.
>> А false negative'ы не влияют? В смысле когда проблема есть, но мы
> ну мы ж с программами работаем, а не с пользователем, к счастью
> - программа не может год скрывать что среднее время выполнения вот
> этого сценария увеличилось на 20%, а потом внезапно массовое обращение зарегистрировать.

Эмм... я не совсем понял к чему это... "Программа не может скрывать" -- она не может сообщить, вообще-то. Обновление можно рассматривать как сигнал от программы, но пользователь может настроить программу по разному, об этом выше уже говорили, а значит это сигнал от пользователя.

>> Количество покупок лицензий несомненно важная статистика. А вот насчёт того что количество
>> установок Fedora не важно -- я не уверен. Они могут например
>> на основании этих установок предсказывать количество покупок лицензий в будущем. Или
> а вот для этого надо доказать наличие корелляции ;-)
> А это summer student сделает неубедительно.

Может быть. А может и нет: корреляция -- это штука, которую все как правило понимают. Ну или им кажется, что они понимают, а в данном случае нет разницы. В отличие от колмогоровской сложности, ANOVA с повторными измерениями, эйгенвекторов и прочей нечисти.

>> поэтому все так озабочены сбором данных. Есть игроки типа фб и
>> гугла, которые зарабатывают на этих данных, но для большинства же данные
>> нужны, чтобы создать позитивный новостной фон, который будет поддерживать веру в
>> миф об успешности. Пока вера будет жить, миф будет реальностью.
> фиг знает - данные собирают какие-то совершенно чудесатые индусские конторы, и кто
> им платит за хостинг и электричество - весьма немалых денег -
> я решительно не понимаю (там есть ньюанс-  датасборник не должен
> тормозить и влиять на функционал того из под кого он тырит
> - иначе выпилят мгновенно)

Во, вот это правильный анализ. Не "сбор данных == нарушение приватности", а надо вообще оценить чем компания занимается, на что она живёт, прикинуть бизнес модель и насколько в эту бизнес модель может вписаться акт продажи приватных данных гуглу или фейсбуку. Если мы глянем на RedHat то мы видим причины зачем им нужны данные от пользователей, мы видим причины отличные от желания продать данные гуглу, поэтому вот здесь как раз вылезает бритва Оккама: наше понимание реальности уже содержит причину для RedHat'а собирать данные, если мы добавим к нашему пониманию ещё и намерение RedHat'а продать данные гуглу, то это не позволит нам объяснить никаких других наблюдаемых фактов. Я отмечу -- это не повод отказываться проверить гипозету о том, что RedHat сливает данные гуглу (возможно есть или возможно получить какие-то факты, которые невозможно объяснить не принимая гипотезу о сливе?), но до того как эта проверка проведена, бритва Оккама -- это повод полагать, что RedHat скорее не сливает, чем сливает.

> imho, это уже пузырь ради пузыря - то есть нико эти данные
> никогда не купит, ибо нафиг не нужны в таком количестве и
> качестве, но инвесторы несут бабки мешками, потому что модно и "как
> у гугля".

Задача не данные продать, задача-минимум -- создать видимость правильного бизнеса, то есть бизнеса, который не как слепой котёнок тычется во всё подряд, а который исследует рынок, и принимает обоснованные решения о том, в какую сторону двигаться дальше. Задача-максимум не просто создать видимость, а на самом деле принимать обоснованные решения. И да, если "модно" и "как у гугля" то это выглядит убедительнее.

 

Ваше сообщение
Имя*:
EMail:
Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:
 
При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.



Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру