همراهان گرامی دیتاک، سلام امیدوارم حالتان خوب باشد. مدتی بود دوست داشتم پستی در ارتباط با تیمهای فنی که در شرکت در حال فعالیت هستند بنویسم و شما را کمی بیشتر با تیمها آشنا کنم، اما امروز تصمیم گرفتم جدا از این آشنایی، شما را تا قلب تیم فنی ببرم و از یک روز کاری در دِیتاک بنویسم. اجازه دهید در ابتدا شما را بیشتر با ساختار تیمهای فنی دیتاک آشنا کنم. دیتاک چند تیم فنی دارد؟ تیم فنی دیتاک …
Blog Posts
امروزه استفاده از الگوریتمهای یادگیری عمیق (Deep Learning) در حل مسائل یادگیری ماشین (Machine Learning ) بسیار پرکاربرد شده است. با افزایش حجم دادهها و کیفیت بالای به دست آمده و قدرتمندتر شدن سیستمهای پردازشی، استفاده از روشهای یادگیری عمیق قابل توجیهتر شده است. به طور کلی گفته میشود که آموزش مدل در روشهای یادگیری عمیق نیاز به حجم دادهی آموزش بالایی دارد. ( البته در برخی مواقع با استفاده از راهکارهایی میتوان این نیازمندی را کاهش داد!) در برخی …
شاید اسم apache airflow به گوشتان خورده باشد. airflow به صورت خلاصه یکی از ابزارهای مدیریت پیشرفته ی workflowهای سازمانی است. اگر می خواهید در این رابطه بیشتر بدانید، پیشنهاد میکنم قبل از خواندن این مقاله سری به گوگل بزنید و دربارهاش سرچ کنید. چون ما میخواهیم اینجا و در این مطلب فارغ از توضیحات کلی و کلیشه ای و همچنین مباحث فنی به جایگاه airflow در دیتاک و علت به وجود آمدنش صحبت کنیم. با ما همراه باشید. داستان …
در ابتدا بگویم که اگر این مقاله را میخوانید که بدانید OrientDB چه قابلیتهایی دارد و چهکار میکند، شما را به سایت و داکیومنت این محصول ارجاع میدهم که بسیار بهتر از من به بیان قابلیتها و کاربردهای آن پرداخته است. اما اگر با OrientDB یا Neo4j یا دیگر دیتابیسهای گرافی آشنایی دارید، این متن دیدی از تجربه من نسبت به این دیتابیس به شما میدهد. اگر به داکیومنتهای این دیتابیس مراجعه کنید پر است از قابلیتهای گوناگون و ادعای …
سلام من هامون، مدیر فنی شرکت دیتاک هستم. در این پست میخواهم شما را با معماری بیگ دیتای شرکت دیتاک بیشتر آشنا کنم. ما در ابتدا چه میکردیم!؟ مانند بسیاری از مجموعههای دیگر، کار مجموعهی ما نیز با یک دیتابیس رابطهای شروع شد. البته چون از همان ابتدای کار میدانستیم یک سیستم write-heavy داریم به سراغ MariaDB Cluster رفتیم. روال کار به این صورت بود که هزاران خزنده، جمعآوریهای خودشان را روی MariaDB ذخیره میکردند. کدهای پردازشی ما هم به صورت …
امروزه حجم عظیمی از دادههای موجود را فعالیتها و اطلاعاتی که کابران در فضای مجازی به اشتراک میگذارند، تشکیل میدهد. این دادهها میتوانند از منابع متنوعی همچون شبکههای اجتماعی، دادههای ابری، اینترنت اشیا و هر منبع اشتراکِ داده بر روی فضای مجازی باشد. این دادهها مبنای بسیاری از آنالیزها و تحلیلهای انجام شده در هر سازمانی هستند. دادههای موجود در هر بستری را میتوان در دو دسته دادههای با ساختار و بدون ساختار تقسیم بندی و ذخیره نمود. به صورت …
داستان مهاجرت به اسکریپی: ما قبل از اسکریپی، انجینی را برای جمع آوری استفاده میکردیم که از PHP قدرت گرفته و از پایه توسط تیم فنی دیتاک توسعه داده شده بود. با توجه به حیاتی شدن جمع آوری اطلاعات و زیاد شدن تعداد کراولرها و رشد نمایی دیتایی که وارد مجموعه می شد، مدیریت این زیرساخت جمع آوری کم کم داشت به پروسهی سختی تبدیل می شد. از طرفی هم اگر سروری که کراولر PHP را در حال اجرا داشت …