Miscellaneous

книги. «Темні дані: практичний посібник із прийняття правильних рішень у світі відсутніх даних»

Вітаю.

Не приховую, що в мене завжди є певна частка професійного інтересу до роботи з даними,

їхнього аналізу.Тому коли побачив книгу Девіда Хенда з інтригуючою назвою “Темні дані”, а також прочитав підзаголовок “Практичний посібник з прийняття правильних рішень у світі даних, що відсутні”, вирішив її погортати. На моє задоволення, Девід Хенд виявився британським статистиком, а заразом президентом Королівського статистичного товариства, за свою роботу він отримав звання офіцера Ордену Британської імперії.

Вибірково відкрив книгу в кількох місцях,побачене сподобалося, зрештою прочитав книгу за пару днів (360 сторінок або близько того, небагато). Текст написаний легкою мовою, але без непотрібних спрощень та припущень, що дуже цінно у таких роботах. За простотою ховаються великі знання автора та добре підібрані приклади, які дозволяють оцінити важливість даних. Під "темними даними" розуміється інформація, яка навмисно або випадково спотворена, відсутня в наборі даних і змінює наше уявлення про предмет, що обговорюється. Давайте наведу приклад, який добре це пояснить:

«Арктичним експедиціям 1852, 1857 та 1875 р.р.постачалося Arctic Ale - пиво з особливо низькою температурою замерзання, виготовлене Семюелем Аллсопп. Альфред Барнард, який написав історію британського пивоваріння, спробував цей ель у 1889 р., описавши його як напій “приємного коричневого відтінку, що має смак вина і горіхів і таким шипінням, ніби був зварений щойно… Через велику кількість його нефільтрованого екстра слід розглядати як надзвичайно цінний та поживний продукт”. Саме те, що потрібно в арктичних експедиціях.

У 2007 р. пляшка із партії 1852 р.була виставлена ​​на аукціоні eBay зі стартовою ціною $299. Продавець, у якого вона зберігалася 50 років, неправильно написав назву пива, пропустивши одну “p” у слові “Allsopp”. Як наслідок, предмет не виявлявся пошуковими запитами любителів винтажного пива, тож надійшло лише дві заявки. З них перемогла заявка 25-річного Даніеля Вудула, який запропонував цілих $304. Прагнучи визначити цінність покупки, Вудул відразу виставив пляшку на продаж, але цього разу з правильною назвою. У відповідь було подано 157 заявок із максимально запропонованою ціною $503300.

І тут одна пропущена літера коштувала півмільйона доларів. Це наочний приклад того, що втрата інформації може спричинити значні наслідки».

Насправді пропозиція у півмільйона булажартівливим, пляшку зрештою купили за $4300. Що все одно на порядок відрізняється від того, що врятував перший власник. Випадкове спотворення інформації призвело до того, що були втрачені цілком реальні гроші, але такі ситуації відбуваються часто-густо. Згадайте, як на фондовому ринку скуповують акції випадкових компаній, назви яких співзвучні тим, що справді цікаві. Здається, що це неможливо в наш час, але ситуація повторюється і уникнути її неможливо.

Різне

Партнерський матеріал

Реальність та перспективи ринку IT-професій

Які професії найбільш популярні та високооплачувані?

Суботня кава №201

Налийте чашку ароматної суботньої кави тапознайомтеся з новинами тижня. "Яндекс" відкрив попереднє замовлення на нову колонку, "ВКонтакте" запустив месенджер, Huawei провела глобальну презентацію, а LEGO пропонує зібрати картину.

Тест Haval F7. Великий, гарний… китайський

За даними «АВТОСТАТ» у лютому 2020 рокукитайські автовиробники реалізували в Росії 3208 нових автомобілів, що на 35,9% вище результату річної давності. Лідером серед виробників із Піднебесної став бренд Haval.

Honor 30. Втопили та розбився.

Сага зі щасливим кінцем про те, як можна і розбити і втопити телефон із захистом від бризок і відбутися легким переляком, а також дізнатися цікаві новини про вигідний ремонт.

Вводячи читача в класифікацію темних даних,Хенд пропонує розуміння того, як виникають помилки. Наприклад, є дані, про які ми не здогадуємося, що вони відсутні. В Америці часто наводять як підтвердження будівельних умінь предків зроблені з колод хатини часів освоєння Дикого Заходу. Здається, що факт існування цих будівель доводить вміння будівельників. Але мало хто замислюється, куди поділися решта хатин, адже вони зникли. До нашого часу збереглися лише найкращі зразки, а 99% зникло. І це ті самі дані, про які більшість не думає. У нас часто наводять як приклад міську легенду про дельфінів, які рятують людей, оскільки штовхають їх у бік берега. Ось тільки ті, кого дельфіни, граючи, штовхали у відкрите море, нічого вже не можуть розповісти. Помилка того, хто вижив.

Іншим прикладом спотворення даних може бутиїхнє сприйняття, коли суспільство вперше приділяє їм увагу. Наприклад, газети не публікують у кримінальній хроніці певний тип злочинів, а потім це стає модним. І створюється помилкове враження, що це щось нове та відбувається зростання таких злочинів. Але це здебільшого негаразд, швидше ми вперше бачимо дані, вони стають нам новими.

Помилки в початкових даних трапляються часто-густо іпоряд, їх також треба вміти розпізнавати. Людський фактор завжди виходить на перше місце, впевнений, що ви здивуєтеся, якщо побачите на своєму банківському рахунку мільйони, яких там ще не було вчора. Помилка не така вже й рідкісна, співробітники різних компаній часто помиляються в комах, коли виставляють числа. Наприклад, італійська авіакомпанія Alitalia у 2006 році продала квитки бізнес-класу з Торонто на Кіпр по 39 доларів замість 3900 доларів за штуку. Загальний збиток становив 7.2 млн доларів.

Але можна переплутати не тільки коми у цифрах, а йправильні стовпчики. У 2005 році інвестиційна компанія Mizuho Securities втратила 300 млн. доларів. Вона запропонувала 610 тисяч акцій J-com за вартістю одну ієну, хоча все мало бути навпаки — вартість акції становила 610 тисяч ієн. У книзі наводяться десятки таких помилок, які коштували компаніям мільярдів. І це теж про роботу з даними, які можуть не просто бути відсутніми, а бути спотворені через помилку, або це може бути зроблено усвідомлено.

Які помилки можуть бути? Будь-які.Помилка вимірювальних приладів чи методики, що дає збій. Має намір фальсифікація, яку можна знайти за допомогою математичних методів. Один із прикладів, який мене змусив усміхнутися, це розсилка в сотні наукових журналів підробленої статті, всередині якої не було нічого конкретного, в результаті сотні публікацій без жодної перевірки. Це добре ілюструє той світ, де ми живемо.

Знаєте, це одна із книг, які можнарекомендувати прочитати найширшому колу людей, від тих, хто займається аналізом даних професійно (нового не знайдете, але цікаві моменти зустрінете), до звичайних людей, які хочуть краще розуміти, як формується світ інформації навколо всіх нас. Одним словом, читати книгу потрібно, вона відверто гарна і написана легкою мовою. Рекомендую.

Читаємо разом №2. Добірка цікавих книг про IT і не лише

Близько десяти книг, які дадуть вам чудовіемоції та задоволення від читання – про конфлікт Тіма Кука та Айва, про бомбардування Токіо, історію Нью-Йорка у розрізі розваг і не тільки. Добірка книг на кілька місяців повільного читання.

Добірка книг про технології і не лише. Читаємо разом

Добірка з десяти книг – розумних та смішних, інодісумних. Про те, хто живе з нами по сусідству і кого ми не бачимо, про шахраїв та наше сприйняття реальності. Різні книги, але завжди розумні, цікаві та змушують думати.