>> Если непонятно, то иди дворы подметать.
> В чем связь? Кстати, дело полезное - сам Ильич занимался. У тебя какие-то комплексы против труда?При чём здесь комплексы? Каждый должен заниматься тем, что у него лучше всего получается. Всем от этого будет лучше.
> Нет, можно попытаться перелопатить рассылку в поисках неизвестно чего, как предлагал ты. Просто это гораздо сложнее.
А кто-то обещал, что будет просто? Наука -- это в принципе перелопачивание мегатонн данных, в результате которых ты доказываешь утверждение, про которое тебе ещё доказывать придётся, что оно несёт в себе больше 0 бит полезной информации. Скажи спасибо, что здесь не надо для получения каждой точки данных, встречаться лично с автором патча и ревьюером, и интервьюировать каждого по полчаса.
Но то что они сделали -- это просто пустое место. Если, допустим, аппеляция к гомофобии повышает вероятность принятия бага с 0.05, до 0.15, то как ты думаешь, сколько надо заслать багов, чтобы эту разницу замерять хотя бы в стиле "разница есть/нет"? Я не считал, но предположу, что несколько десятков, не меньше двух. Если разница, которую хочется измерить -- это разница между 0.05 и 0.50, то по моим самым оптимистичным оценкам потребуется пяток багов без аппеляции к гомофобии, и ещё пяток с аппеляцией.
> Может ты имел в виду посоветовать аспиранту создать сильный AI, который ему PhD напишет?
AI... не AI... Если написать такой AI, то этот AI будет достаточным поводом для PhD, а может и не для одного, а нескольких.
Но ежели прицел пониже брать, то нужно заняться автоматизацией, а не AI. Если составить список найденных багов, а потом программно сопоставить каждому багу исходный патч и тред обсуждения/ревью, и патч с фиксом, с сопутстующим обсуждением, то можно просматривать по нескольку багов в час, пытаясь высмотреть паттерны. Высматриваешь паттерны, генерируешь гипотезы. Нагенерировал гипотез, проверил их на ещё непросмотренных данных.
Когда процесс будет отработан в таком виде, можно попытаться подключить NLP (уже почти "AI") и автоматизировать выбор тредов, в которых происходит что-нибудь типа "аппеляции к гомофобии" или типа того.
В принципе, можно и без этого. Я думаю, что если найти сотню-другую внесённых багов, то какую-нибудь гипотезу можно сгенерировать. Причём не только "теоретическую", качественную, но и статистическую, количественную. А затем если найти даже 30 точек данных, можно надеятся на p<0.05. Если гипотеза хорошая нашлась.