АйТиБорода
23K subscribers
87 photos
18 videos
3 files
855 links
Гиковский контент про айтишку, технологии и науку. Без цензуры и лишнего пафоса.

Слава Україні. Жыве Беларусь.

YouTube: https://youtube.com/itbeard
AIA Podcast: https://bit.ly/aia-podcast
По вопросам: @iamitbeard
Download Telegram
Так выглядит лендос, который мне нагенерил AutoGPT за 2,5 часа работы и за 2,5$ запроcами к API со следующими настройками:

ai_goals:
- Generate landing page for Anywhere Club Discord Events.
- Use only JS, HTML & CSS
- Save result in file index.html
ai_name: Viktor
ai_role: an AI designed for creating web sites with js

Работал он поверх OpenAI API GPT-3.5 и результат прям не впечатляющий, но кажется что когда завезут доступ к GPT-4, то всё станет сильно бодрее и результаты порадуют.

А пока он умеет неплохо гуглить, работать с локальными фалами (сохранять и читать из них), а вот с написанием кода, даже весьма простого, фейл (не говоря уже об итеративном его улучшении). Задачу с написание змейки с головой в виде лого АйТиБороды он провалил начисто, не сумев сгенерировать работающий код.

UPD: CSS вышел красивый, а вот HTML красивый, но семантика там совсем не гуд. Четвертой целью в следующий раз надо ставить семантическу проверку на w3.org
#ai
Можно хоронить StackOverflow: во всю набирает обороты ИИ-поисковик для разработчиков https://phind.com

Это чудо работает на базе собственной LLM (насколько я сумел нагуглить), и индексирует строго девелоперские ресурсы при построении ответов. В ответ выдает красивые мануалы по запуску кода и даже сам код. Т.е. это не обычная выдача гугла, это больше похоже на рботу по поиску ответов со Стековерфлова через интерфейс ChatGPT.

Есть у этой штуки и несколько настроек: можно использовать быструю и медленную (но более умную) LLM, можно просить давать краткий ответ, можно включать "творческий" (галлюцинирующий) мод, можно тонко настраивать домены для поиска.

Потестировал 10 минут и прям влюбился, буду теперь стараться вместо Stackoverflow сюда ходить 🥰
#ai
Получил доступ к плагину "Browsing" для ChatGPT.
Что могу сказать:
🔸 С плагином ChatGPT действительно стал ну прям очень хорошо выдавать актуальную информацию и саммаризировать свежие статьи.
🔸 Работает он из рук вон медленно, но надеюсь, что со временем раздуплится. Пока это похоже на диалап-соединение, только еще медленнее (олды на месте?)😅
🔸 Нам с Витьком нужно срочно переносить "AIA Podcast" на отдельный хостинг, так как даже ChatGPT трудно найти нас в Google! 🤣

Больше скринов общения с плагином тут: https://twitter.com/iamitbeard/status/1658546396859883531
#ai
Я уже рассказывал про AI-сервисы для написания кода в предыдущих выпусках, а завтра вас ждет практический стрим, где будем вместе эти сервисы трогать руками.

Один из них заточен конкретно под написание unit-тестов - это сервис CodiumAI.

Ребята сделали бесплатное расширение для VS Code и IDE’шек от Jetbrains, которое буквально в один клик позволяет не выходя из IDE генерировать unit-тесты для существующего кода. Вы можете гибко настраивать стиль генерируемых юнитов (AAA, GWT, etc.), выбирать тестовый фреймворк, задавать примеры уже созданных вами тестов, чтобы на их основании генерировать новые. Я искренне радовался, когда впервые попробовал этот тул.

Сервис под капотом работает на GPT, поддерживает Python, JavaScript, и TypeScript (Java на подходе). Качество генерации на уровне, иногда я прям удивлялся тем edge cases, которые сервис умудрялся покрывать. Общем, если вы ленитесь писать тесты, либо хотите экономить своё время, то очень рекомендую обратить внимание на CodiumAI
#ai
Уже появилось немало open-source LLM'ок, заточенных под программирование и которые можно использовать на своём ноуте или сервере за немного денег.

Зачем оно надо? Оно будет работать исключительно на вашей машинке, не сливая данные, вот и всё. Но этот нюанс открывает огромные возможности по запуску всяких там ИИ-чатов и копайлотов для команд разработки в компаниях, которые блокируют использование сторонних LLM типа ChatGPT и т.д. AI-Ops не за горами, а ещё пол года назад казалось, что это сказки😎

Ниже оставлю несколько самых популярных LLM, которые обучались для написания кода (отсортированы в порядке появления на рыночке):

🔸 Codes Alpaca (7B, 13B) - первая специализированная LLM'ка, набравшая большую популярность. Построена на базе слитой LLaMa.

🔸 StarCoder (15.5B параметров) - моделька от проекта BigCode, доступна для коммерческого использования (Apache License 2.0), запускается на железе с 20Gb RAM в минимальной конфигурации.

🔸 Code T5+ (220m - 16B) - LLM'ка для программирования от SalesForce, следующее поколение модели Code T5 (которая запускалась почти на каждом корыте), входит в семейство моделей CodeGen.

🔸 Stable Code (3b) - свежая моделька от Stability AI, которые разрабатывают StableDiffusion, DeepFloydIf и вообще молодцы.

🔸 Code Llama (7b, 13b, 70b) - модель от Meta, построенная на базе LLaMa 2 и зафайнтьюненная под задачи программирования. На момент написания этого поста ещё не вышла в открытый доступ. Если таки выйдет, то будет самой большой из опенсорстных, сможет работать на уровне GPT 3.5 или лучше (но до GPT 4 там ещё далеко).

Большинство из этих моделек - баловство по сравнению с Github Copilot и Chat GPT. Т.е. если вы привыкли к качеству копайлота, то не ждите такого-же от опенсорсных моделей, они все значительно меньше и тупее того, на чем работал копайлот года назад (не говоря о сегодняшнем Github Copilot). Но вот с выходом Code LLaMa всё может поменяться, так как разворачивать локальный копайлот, который работает на уровне Github Copilot начала 2023 года (не GPT 3.5 который) уже смысл будет, и это сможет приносить как пользу так и профит компаниям-разработчикам ПО.

ВАЖНО: Перед использованием внимательно читайте правила использования этих моделей (лицензию), некоторые из них (Stable Code, например) можно использовать только для research-целей, у некоторых, скорее всего, будут ограничения на коммерческое использование (привет LLaMa 2).

👉 Если вы ни в зуб ногой как эти LLMки разворачиваются, то вот тут я прям пошагово разоврачиваю LLaMa 2 на своём ноуте за три часа: https://www.youtube.com/live/GhSgWeSYo-c
👉 А вот тут паренек делает это и вовсе за 15 минут: https://youtu.be/TsVZJbnnaSs
#ai
Ух, Meta даёт жару!
Пару часов назад они представили ИИ-сервис Seamless Communication Translation, который распознаёт речь на более чем 100 языках, транслирует её в текст, переводит на один из 36 языков и озвучивает результат ⚡️

Потестировать сервис можно тут: https://seamless.metademolab.com/demo. Просто надиктовываете на любом языке до 15 секунд речи и кайфуете от результата. Я тестировал с беларуским языком - работает отлично 👍

Не могу не напомнить, что пару месяцев назад назад Meta уже анонсировала AI-проект Massively Multilingual Speech (MMS), который может переводить чуть ли не 1100+ языков. Не удивлюсь, если Seamless Communication Translation окажется одним из продуктов, родивщихся из MMS.
#ai
В одном из предыдущих выпусков AIA Podcast мы с Витей уже рассказывали вам про проект HeyGen, который обещал делать реалистичных видео-аватаров, неотличимых о вас самих. Тогда мы удивлялись, что это выглядит как фантастика.

Сегодня HeyGen запустил сервис, который переозвучивает видео на несколько языков и делает lip-syncing - синхронизацию губ под выбранный язык. В сервисе есть триальны режим, можно попробовать переозвучить видео до двух минут.

Вот вам результат, который получился у меня за 3 клика мышью. Сказать, что я удивлен - ничего не сказать. Качество перевода отличное, сохранена манера речи и есть сносный lip-syncing (это прям не простая задача для не родственных языков). Это next step. Жду когда они сделают ТП для переозвучки видео длиной час и больше - сейчас они работают с пятиминутными роликами, 6 роликов в месяц за 50 долларов.

UPD: Сервис официально не поддерживает русский язык в качестве input. Но, так как там на бэке видимо какая-то LLM'ка, то в целом можно забить на это правило.
#ai
Попался на глаза проект https://devgpt.com (спасибо патрону Валентину), который реализует еще один вариант коддинга с AI-ассистентом, который мы ещё не видели.

Ребята написали desktop app, который вы натравливаете на папку со своим проектом, рассказываете ей что за технологии используются в проекте, а дальше просто общаясь через чат, встроенные в интерфейс программы, вы парнопрограммируете с AI: фиксите баги, делаете рефакторинг или имплементируете новые фичи.

Работает оно на модели gpt-4-32k (самая жирная) с использованием агентов (даже умеет задавать наводящие вопросы и пишет код получше голого ChatGPT), имеет бесплатную подписку на 850 строк кода в день и платную без ограничений (не верю) за 16 долларов в месяц. Код проекта открытый, лежит тут: https://github.com/february-labs/devgpt-releases

Прям советую попробовать. Работает оно не то чтобы совсем "вау!", но и не плохо, а свежие подходы к программированию с ИИ давненько не появлялись (месяц точно ничего не было! 😅) - надо быть в курсе трендов. #ai
Нет, это не я. Нет, это не переозвученный я. Это результат работы цифрового аватара HeyGen. Это созданный мною с нуля аватар, и его качество поражает. Дальше расскажу, как я это сделал.

Сервис HeyGen позволяет переозвучивать видео и делать цифровые аватары. Для теста я купил подписку уровня "Creator" за вполне подъемные 59$ в месяц. С ней вы можете создавать до 30 минут script-to-video в месяц. Script-to-video - это когда ты пишешь дословный сценарий, а твой аватар его озвучивает. Не путать с text-to-video, это другое.

Дальше я снял несколько референсных (исходных) видео, на базе которых был создан аватар. Пример референсного видео - третий из поста. Сидишь и пару минут говоришь на камеру в своей манере. Главное быть естественным и говорить на одном языке (любом). На основе этого видео HeyGen довольно шустро делает аватар, который уже и используется для script-to-video.

В референсном видео из этого поста у меня звук с петли Rode Wireless Pro. Звук у петли хороший, но для качественной реплики он не подошел - то что выдал HeyGen не было похоже на мой голос. Потому я на скорую снял видео для второго автара, в котором не парился с качеством картинки, но голос записал на профессиональный микрофон Shure sm7b. В итоге получилось очень похоже на меня. В сервисе вы можете миксовать голоса разных аватаров, тут нет проблем.

И ещё из важного - это "файнтьюнинг". Для качественного результата надо снимать референсное видео на хорошую камеру и с хорошим светом. Второе видео из поста - результат работы аватара без "файнтьюнинга". На нём у меня и борода рассыпается, и рот не так круто выглядит, как мог бы. Процесс файнтьюнинга в HeyGen - это когда ты доплачиваешь 49$ и ждешь 12 часов. Такой себе "файнтьюнинг", но результат после него действительно лучше. Борода не рассыпается, рот и зубы проработаны чётче.

В общем, я очень под впечатлением. Буквально за 110$ вы получаете идеального аватара, разговаривающего на 10+ языках. Скоро сделаю целый видос, где буду полностью заменен аватаром, следите за обновлениями 😎
#ai
🤖 Я вам обещал сделать целый выпуск через HeyGen? Ну вот ловите: https://youtu.be/4qxgYkptAKw

Делал по следам конференции "Made by Google '23", в две генерации по 2 минуты. Оказывается, что если HeyGen генерирует видео длиннее референсного (на котором обучался), то на отрезке превышающем длину референса аватар начинает очень неестественно двигаться и моргать, потому две генрации, а не одна. К тому же генерация одного и того же видео отличается от раза к разу, первая вообще не понравилась, потому по факту было три генерации по несколько минут.

Еще, я попробовал сделать платный клон голоса. Качество вроде улучшилось по сравнению с предыдущими генерациями. Для обучения пришлось пять минут начитывать английский текст на ломаном языке.

Текст для видео делался через ChatGPT по моим скудным заметкам с конфренции. Бэкграунд обложки рисовал бесплатный инстанс SDXL на JAX и Google Cloud TPU. Тайтл и описание ролика - совместная работа ChatGPT и меня.

Итоговый ролик отмонтажен за пару часов в Premier Pro. Теперь я точно знаю, что аватары не заменят авторов на ютубе полностью, так как кроме съёмок остается ещё куча рутины по монтажу, спим спокойно. Но на английском он говорит прям сильно лучше меня, это факт 😅

#ai
Вчера пол ночи тестировал DALL-E - нейросеть от OpenAI, которая по идее должна стать конкурентом Midjourney 5 и Stable Diffusion XL. По итогу могу сказать, что в фотореалистичную графику она умеет сильно хуже, но вот логотипы и анимационную графику рисует прям круто.

Основной упор в DALL-E сделан на понимание промптов и написание текста. Как итог, не нужно выдумывать миллион слов описания чего ты хочешь, и текст пишется правильно.

Я нагенерил около 100 вариантов логотипа для АйТиБороды по промпту "logo for an IT channel called "ITBEARD" with a bald man with round black sunglasses, in blue and white colors with dark background without text", и парочка вышли настолько удачными, что потратив пару часов на доведение в фотошопе я получил новое лого канала.

👉 Протестить DALL-E можно тут: https://www.bing.com/images/create
#ai
Сегодня многим подвезли в ChatGPT распознавание картинок. Мне тоже раскатили, но у меня оно упорно выдает ошибку как в вебе, так и на телефоне.

А вот Вите, моему соведущему из @aiapodcast, повезло больше. На картинках к посту мои минутные каракули макета сайта, и результаты, которые ChatGPT выдал Вите на разные промпты.

👉 https://jsfiddle.net/itbeard/7vc9b8mz - это код первого скрина, который минималистичен, но работоспособен на 100%. Промпт: "Сверстай сайт по картинке"

👉 https://jsfiddle.net/itbeard/h1Ltq9nz - это код варианта, где Чат попросили действовать как профессиональный верстальщик: "Act as a professional HTML and CSS developer. Create a new website temp drawn in the attached image. As a result provide HTML & CSS code. Ask ad questions if you need"

Удивительно, что при более детальном промпте мы получили неработающий макет. Краткость - сестра талланта, получается? С другой стороны, АйТуборог мне понравился, и годишная презентация GPT-4 нам не соврала - может оно с салфетки сайт сделать! #ai

P.S. Поговорить за новинки AI можно в нашем ламповом чате AIA подкаста @aiapodcast
This media is not supported in your browser
VIEW IN TELEGRAM
Тут у сервиса elevenlabs (работают с AI-генерацией голоса) появился новый продукт для даббинга (дублирования) видео: https://elevenlabs.io/dubbing

Как по мне, он работает лучше чем HeyGen, но без липсинкинга, только перевод и озвучка. Перевод не идеальный, но озвучка, передача манеры речи и тембра на высоте 👍

Оригинал переозвученного Шортса тут: https://www.youtube.com/shorts/vv_EktOYqRk

На вход можно подавать и русский, и украинский и даже беларуский. На выходе из этих языков пока только украинский и русский.

UPD. Оказывается, что HeyGen использует голосовой движок EvenLabs для своего механизма озвучки видео.

#ai
DALL-E определенно хуже Midjourney и даже SDXL работает с реалистичной графикой. Но вот с логотипами от прям попадает с первой генерации в то, что ты от него просишь. Нереальный уровень понимания. Ну и текст гуд пишет. Если вам уже завезли его в ChatGPT - очень рекомендую поиграться, получите наслаждение 👍

Промпт к этому набору логотипов для @aiapodcasts был такой "Make a logo for chat about Artificial Intelligence, in dark and ultraviolet colors. This is the official chat of popular podcasts about AI with name "AIA Podcast"" #ai
Если вы как и я до сих пор не знали про сервис Suno, который занимается генерацией музыки и текста через AI-модели собственные, то прям сейчас идите и попробуйте их, гарантирую вау-эффект: https://suno.ai

Их моделька Chirp генерируем музыку и даже текст. Даже на русском. Су*а, даже на БЕЛАРУСКОМ! Еще два месяца назад я читал лекции про ИИ-инструменты, и заканчивал их примером с рэпом по-беларуски и словами "пока ИИ так не может, мы можем спать спокойно". Всё, тепер ьне можем 😅

Вторая моделька, Bark, генерирует голос по тексту не хуже опенаишного Виспера. Браво, просто браво.

В прикрепленных видео Скриптонит читает стих Янки Купалы, а Эминем читает реп про беларусов (текст тоже сгенерен Suno 😬).

Всё, рэперов можно на пенсию отправлять я считаю.
#ai
Please open Telegram to view this post
VIEW IN TELEGRAM
Релизнулась CodeLlama 70B - самая большая опенсорсная LLM производства Meta, натренированная на программном коде (да и в целом это пока самая жирная модель для разработки из существующих специфичных LLM'ок): https://ai.meta.com/resources/models-and-libraries/llama-downloads/

Так как это практически зафайнтьюненая LLaMA на 70B, то есть шанс, что заведется даже на вашем корче. Берете какой Jan AI, MLC LLM или TextSynth Server (для любителей секса), ставите туда это чудо, и чувствуете себя офигенно модным разработчиком с собственным ИИ-ассистнтом на компе 😊
#ai
Media is too big
VIEW IN TELEGRAM
В одном из видео я предполагал, что в ближайшем будущем девопсы и/или ML-инженеры получат в плечи обязанности по развертыванию приватных LLM'ок на команду, чтобы их ИИшные чаты внутри IDE не сливали данные, и работали через зафайнтьюненые на командных проектах моделях.

Это будущее вот уже практически наступило, сейчас раскажу почему:

Во-первых: появляется всё больше серьезных опенсорсных LLMок, которые уже догнали по производительности GPT-3.5. Не успела вчера релизнуться CodeLlama (читайте пост выше), так уже сегодня в сеть утекла закрытая Mistral Medium 70B (протестить можно тут). И всё это добро запускается на машинках с 64Gb памяти! Т.е. в каком-то будущем девопсам не нужно будет разворачивать это на серверах компании, а просто будут подниматься какие-нибудь докеры прямо на локальных машинах разработчиков (на топовых маках это уже рабочий вариант)!

Во-вторых: появляются решения для встраивания локальных и сторонних LLM в IDEшки. Т.е. завязка на всякие Github Copilot и Jetbrains AI отходят на второй план. Например, сегодня в чате @aiapodcast принесли замечательный инструмент - Continue. Она позволяет встроить ИИ-чат в VSCode и IDEшки от Jetbrains, используя при этом локальные LLM либо сторонние API (у Jan AI даже инструкция по интеграции уже вышла). По факту это опенсорсный плагин, который позволяет работать с контекстом вашего проекта, создавать свои команды для чата, и даже дообучаться (читай файнтьюниться) на вашем проекте! И всё приватно. Из минусов разве что отсутсвие автокомплита, но думаю это дело времени. В видео к посту записал вам немного как оно работает с кодом (через CodeLlama).

Подытоживая: не прошло и пол года, а у нас уже есть шикарные приватные LLM для использования прямо в IDE. И настройка этого добра занимает 10 минут. Не знаю как вам, а я в восторге ❤️

И бонусом: рейтинг LLMок для программирования по версии Continue 😊
#ai
Я тут немного поигрался с Claude 3 Opus (самая мощная LLM от Anthropic) и с удивлением обнаружил, что она лучше всего на рынке умеет в Беларуский язык. Даже GPT-4 делает сильно больше ошибок. Видимо, придется покупать подписку ещё и на Claude 😅

И да, я поклонник проверять качество LLM через их работу с малыми языковыми группами.

Если вы не слышали или не пробовали Claude, то прям советую. Эта LLM разрабатывается бывшими сотрудниками OpenAI, и является по факту основным конкурентом GPT-4, местами даже обходя его (например по величине контекстного окна).

Чтобы попробовать их самую жирную версию модели, Opus, придется оформить подписку, а оформляется она только через американский VPN (в ЕС точно не прокатит).

Но есть лайфхак: идете на сайт их API, создаете там аккаунт, привязываете свой телефонный номер (польский прошел слегка) и получаете 5 баксов на тестирование API. Ну а дальше через веб-интерфейс песочницы API уже играетесь с Opus'ом (я скрин так и сделал).
#ai
Компания Rewind занимающаяся приватным общением с вашими локальными файлами на компьютере сделала ребрендинг, и теперь это Limitless. А случилось это потому, что компания готовит к концу года новое и хорошо забытое старое устройство - Limitless Pendant. С пол года назад еще бывший Rewind начал предварительные сборы на устройство Rewind Pendant. За 59$ компания обещала сделать небольшую капсулу-кулон, оснащенный микрофонами и возможностью записи звука. Записанный за день материал саммаризируется и вы можете легко вспомнить, что происходило с вами весь день. Всё это конечно же приватно, обработка происходит локально на вашем ноутбуке, запись голосов других людей только после их согласия и вот это вот всё. Правда компания не уточнила, когда она начнет производство устройства.

И вот, буквально пару дней назад нам показали Limitless Pendant, обновленный и переименованный Rewind Pendant первые партии которого разошлют в конце 2024 года. Ребята не только переименовал девайс (и компанию), но и сильно изменили его дизайн - теперь это больше похоже на клипсу-подвеску в разных цветовых вариантах. Сейчас предзаказать сие чудо можно за 99 долларов. На фоне громкого провала дорогущего AI Pin за 699$ Pendant выглядит весьма вкусно.

Сам я предзаказал его еще когда он был Rewind Pendant, за 59$, потому с нетерпением жду, чтобы попробовать интегрировать его в дневную рутину. Кроме саммаризации разговоров в нем обещают синхронизации с календарями и почтой. Честно говоря, пока не придумал как это можно будет использовать в течении дня. Пока в голову пришло только делать дневные самари с экспортом в Obsidian (если пользуетесь им, то знаете, что там весьма удобно вести персональные дневники).

Ну а вообще, просто посмотрите видео с презентацией нового Pendant. Улыбке СЕО в конце видео можно только по-доброму позавидовать: https://www.youtube.com/watch?v=lt_WnR_GZqs

#ai