مقاله آموزشی برنامه نویسی: پیش‌بینی قیمت سهام با استفاده از الگوریتم‌های یادگیری ماشین در .NET: راهنمای جامع

این مقاله به صورت جامع به بررسی نحوه استفاده از الگوریتم‌های یادگیری ماشین، مشخصاً رگرسیون (Regression)، در اکوسیستم .NET و با استفاده از کتابخانه قدرتمند ML.NET برای پیش‌بینی قیمت سهام می‌پردازد. ما گام به گام مراحل مختلف این فرآیند، از جمع‌آوری داده تا ارزیابی مدل نهایی را طی خواهیم کرد.

چرا .NET و ML.NET؟

شاید اولین سوالی که برای یک توسعه‌دهنده .NET پیش می‌آید این باشد که چرا برای پروژه‌ای مرتبط با یادگیری ماشین، به جای پلتفرم‌های رایج‌تری مانند پایتون، از .NET استفاده کنیم؟ پاسخ در چندین مزیت کلیدی نهفته است:

اکوسیستم یکپارچه: شما می‌توانید مدل‌های یادگیری ماشین را مستقیماً در برنامه‌های دات‌نتی موجود خود (وب، دسکتاپ، موبایل) ادغام کنید، بدون اینکه نیاز به خروج از محیط آشنای C# و اکوسیستم .NET داشته باشید.
عملکرد بالا: .NET به دلیل عملکرد بالا و بهینه‌سازی‌های صورت گرفته، پلتفرم مناسبی برای پردازش حجم بالای داده‌های مالی است.
ML.NET: این فریم‌ورک متن‌باز و کراس‌پلتفرم که توسط مایکروسافت توسعه داده شده، فرآیند ساخت، آموزش و استقرار مدل‌های یادگیری ماشین را برای توسعه‌دهندگان .NET بسیار ساده می‌کند.

در این مقاله، ما از الگوریتم‌های رگرسیون استفاده می‌کنیم. رگرسیون نوعی از یادگیری ماشین نظارت‌شده است که هدف آن پیش‌بینی یک مقدار عددی پیوسته (مانند قیمت سهام) بر اساس مجموعه‌ای از ویژگی‌های ورودی (مانند قیمت‌های گذشته، حجم معاملات و شاخص‌های تکنیکال) است.

گام اول: جمع‌آوری داده‌های تاریخی سهام

اساس هر مدل یادگیری ماشین، داده است. برای پیش‌بینی قیمت سهام، ما به داده‌های تاریخی قیمت (Time-Series Data) نیاز داریم. این داده‌ها معمولاً شامل موارد زیر برای هر روز معاملاتی هستند:

Open: قیمت باز شدن
High: بالاترین قیمت
Low: پایین‌ترین قیمت
Close: قیمت بسته شدن (معمولاً همین قیمت به عنوان قیمت اصلی روز در نظر گرفته می‌شود)
Volume: حجم معاملات

این مجموعه داده به OHLCV مشهور است. منابع مختلفی برای دریافت این داده‌ها وجود دارد، از جمله APIهای معتبر مالی مانند Alpha Vantage، Yahoo Finance یا وب‌سایت‌های بورس‌های محلی.

برای مثال، فرض کنید می‌خواهیم داده‌ها را از یک API که خروجی JSON ارائه می‌دهد، دریافت کنیم. با استفاده از HttpClient در C# می‌توانیم این کار را به سادگی انجام دهیم.

مثال مفهومی دریافت داده با C#:

public class StockDataRaw
{
    public DateTime Date { get; set; }
    public decimal Open { get; set; }
    public decimal High { get; set; }
    public decimal Low { get; set; }
    public decimal Close { get; set; }
    public long Volume { get; set; }
}

public async Task> GetStockDataAsync(string symbol, string apiKey)
{
    using (var client = new HttpClient())
    {
        // آدرس API را با نماد و کلید خود جایگزین کنید
        string apiUrl = $"https://www.some-finance-api.com/query?function=TIME_SERIES_DAILY&symbol={symbol}&apikey={apiKey}";
        var response = await client.GetStringAsync(apiUrl);
        // در اینجا باید پاسخ JSON را به لیستی از اشیاء StockDataRaw تبدیل (Deserialize) کنید
        // کتابخانه‌هایی مانند Newtonsoft.Json یا System.Text.Json برای این کار عالی هستند
        var data = JsonConvert.DeserializeObject>(response);
        return data;
    }
}

گام دوم: آماده‌سازی داده‌ها و مهندسی ویژگی (Feature Engineering)

داده‌های خام به تنهایی برای آموزش یک مدل هوشمند کافی نیستند. ما باید آن‌ها را پردازش کرده و ویژگی‌های (Features) معناداری از آن‌ها استخراج کنیم. این مرحله یکی از حیاتی‌ترین بخش‌های پروژه است.

۱. تعریف ورودی و خروجی مدل:

ابتدا باید کلاس‌های C# را برای ورودی و خروجی مدل خود در ML.NET تعریف کنیم. ما می‌خواهیم قیمت بسته شدن (Close) فردا را پیش‌بینی کنیم. پس قیمت بسته شدن امروز و روزهای قبل به همراه سایر شاخص‌ها، ویژگی‌های ما هستند و قیمت بسته شدن فردا، برچسب (Label) یا همان هدف پیش‌بینی ما است.

using Microsoft.ML.Data;

// کلاس ورودی مدل
public class StockDataInput
{
    [LoadColumn(0)] public float Open;
    [LoadColumn(1)] public float High;
    [LoadColumn(2)] public float Low;
    [LoadColumn(3)] public float Close;
    [LoadColumn(4)] public float Volume;

    // ویژگی‌های مهندسی شده
    [LoadColumn(5)] public float MovingAverage7Days;
    [LoadColumn(6)] public float MovingAverage14Days;
    [LoadColumn(7)] public float NextDayClose; // این ستون به عنوان برچسب استفاده نخواهد شد
}

// کلاس خروجی پیش‌بینی
public class StockPricePrediction
{
    // نام Score به صورت پیش‌فرض توسط ML.NET برای مقدار پیش‌بینی شده استفاده می‌شود
    [ColumnName("Score")]
    public float PredictedClosePrice;
}

۲. مهندسی ویژگی:

ما نمی‌توانیم مستقیماً قیمت فردا (NextDayClose) را به عنوان ورودی به مدل بدهیم. در عوض، باید ستون Close را یک روز به عقب شیفت دهیم تا قیمت امروز، ورودیِ پیش‌بینی قیمت فردا باشد. علاوه بر این، برای کمک به مدل در درک الگوها، شاخص‌های تکنیکال را محاسبه می‌کنیم.

میانگین متحرک (Moving Average): میانگین قیمت در چند روز گذشته که به هموارسازی نوسانات کمک می‌کند.
شاخص قدرت نسبی (RSI): یک شاخص مومنتوم که سرعت و تغییر حرکات قیمت را اندازه‌گیری می‌کند.
ویژگی‌های تأخیری (Lagged Features): استفاده از قیمت بسته شدن دیروز، پریروز و... به عنوان ویژگی‌های مجزا.

مثال مفهومی آماده‌سازی داده:

// فرض کنید allData لیستی از StockDataRaw است که از API گرفته‌ایم
var processedData = new List();

for (int i = 14; i < allData.Count - 1; i++) // از 14 شروع می‌کنیم تا برای میانگین متحرک داده کافی داشته باشیم
{
    var current = allData[i];
    var nextDay = allData[i + 1];

    processedData.Add(new StockDataInput
    {
        Open = (float)current.Open,
        High = (float)current.High,
        Low = (float)current.Low,
        Close = (float)current.Close,
        Volume = (float)current.Volume,
        // محاسبه میانگین متحرک ۷ و ۱۴ روز گذشته
        MovingAverage7Days = (float)allData.Skip(i - 7).Take(7).Average(d => d.Close),
        MovingAverage14Days = (float)allData.Skip(i - 14).Take(14).Average(d => d.Close),
        // این همان برچسب یا Label ماست: قیمت بسته شدن روز بعد
        NextDayClose = (float)nextDay.Close
    });
}

گام سوم: ساخت و آموزش مدل رگرسیون با ML.NET

اکنون که داده‌های آماده‌ای داریم، زمان ساخت و آموزش مدل فرا رسیده است.

۱. راه‌اندازی محیط ML.NET:

ابتدا پکیج نوگت Microsoft.ML را به پروژه خود اضافه کنید.

۲. ساخت پایپ‌لاین (Pipeline):

در ML.NET، فرآیند آموزش مدل از طریق یک "پایپ‌لاین" انجام می‌شود که شامل مراحل آماده‌سازی داده و انتخاب الگوریتم است.

MLContext: این کلاس نقطه شروع تمام عملیات در ML.NET است.
بارگذاری داده: داده‌های پردازش‌شده را در یک IDataView بارگذاری می‌کنیم.
تبدیل ویژگی‌ها: تمام ستون‌های ورودی که می‌خواهیم مدل از آن‌ها یاد بگیرد را در یک ستون واحد به نام Features ادغام می‌کنیم. این یک الزام برای اکثر الگوریتم‌های ML.NET است.
انتخاب الگوریتم (Trainer): یک الگوریتم رگرسیون را انتخاب می‌کنیم. FastTreeTweedie و LightGbm گزینه‌های قدرتمندی برای داده‌های جدولی هستند.
آموزش مدل: با فراخوانی متد Fit()، مدل بر روی داده‌ها آموزش داده می‌شود.

مثال کد آموزش مدل:

using Microsoft.ML;

// 1. ایجاد MLContext
var mlContext = new MLContext();

// 2. بارگذاری داده‌ها در IDataView
var dataView = mlContext.Data.LoadFromEnumerable(processedData);

// 3. تقسیم داده به مجموعه آموزش و تست (مثلاً 80% برای آموزش، 20% برای تست)
var dataSplit = mlContext.Data.TrainTestSplit(dataView, testFraction: 0.2);
var trainData = dataSplit.TrainSet;
var testData = dataSplit.TestSet;

// 4. تعریف پایپ‌لاین
// نام ستون برچسب را مشخص می‌کنیم
var labelColumnName = nameof(StockDataInput.NextDayClose);

var pipeline = mlContext.Transforms
    .Concatenate("Features", // نام ستون جدید ویژگی‌ها
        nameof(StockDataInput.Open),
        nameof(StockDataInput.High),
        nameof(StockDataInput.Low),
        nameof(StockDataInput.Close),
        nameof(StockDataInput.Volume),
        nameof(StockDataInput.MovingAverage7Days),
        nameof(StockDataInput.MovingAverage14Days))
    .Append(mlContext.Regression.Trainers.FastTreeTweedie(labelColumnName: labelColumnName, featureColumnName: "Features"));

// 5. آموزش مدل
Console.WriteLine("Starting model training...");
var model = pipeline.Fit(trainData);
Console.WriteLine("Model training finished.");

گام چهارم: ارزیابی عملکرد مدل

پس از آموزش مدل، باید بدانیم که عملکرد آن چقدر خوب است. ما هرگز از داده‌های آموزشی برای ارزیابی استفاده نمی‌کنیم، زیرا مدل آن‌ها را "دیده" است. در عوض، از مجموعه تست (testData) که کنار گذاشته بودیم، استفاده می‌کنیم.

متد mlContext.Regression.Evaluate() معیارهای مختلفی را برای ارزیابی مدل‌های رگرسیون محاسبه می‌کند. مهم‌ترین آن‌ها عبارتند از:

R-Squared (ضریب تعیین): مقداری بین 0 تا 1 است که نشان می‌دهد مدل چقدر قادر به توضیح واریانس داده‌ها است. مقدار نزدیک به 1 بهتر است.
Mean Absolute Error (MAE): میانگین قدر مطلق خطای پیش‌بینی. این معیار به ما می‌گوید که پیش‌بینی‌های مدل به طور متوسط چقدر با مقادیر واقعی فاصله دارند (مثلاً به طور متوسط 5 دلار خطا دارد).
Root Mean Squared Error (RMSE): جذر میانگین مربعات خطا. این معیار شبیه به MAE است اما خطاهای بزرگتر را بیشتر جریمه می‌کند.

مثال کد ارزیابی مدل:

// ارزیابی مدل بر روی داده‌های تست
var predictions = model.Transform(testData);
var metrics = mlContext.Regression.Evaluate(predictions, labelColumnName: labelColumnName, scoreColumnName: "Score");

Console.WriteLine($"*************************************************");
Console.WriteLine($"* Model Quality Metrics Evaluation         ");
Console.WriteLine($"*************************************************");
Console.WriteLine($"* R-Squared: {metrics.RSquared:P2}"); // P2 برای نمایش به صورت درصد
Console.WriteLine($"* Mean Absolute Error: {metrics.MeanAbsoluteError:C2}"); // C2 برای نمایش به صورت واحد پولی
Console.WriteLine($"* Root Mean Squared Error: {metrics.RootMeanSquaredError:C2}");
Console.WriteLine($"*************************************************");

تفسیر نتایج: اگر مقدار R-Squared بالا (مثلاً بالای 0.85) و مقادیر خطا (MAE و RMSE) نسبت به قیمت سهم پایین باشند، نشان‌دهنده عملکرد خوب مدل است. با این حال، در بازارهای مالی، دستیابی به R-Squared بسیار بالا تقریباً غیرممکن است و هر مدلی که بتواند جهت حرکت قیمت را با دقت معقولی پیش‌بینی کند، ارزشمند تلقی می‌شود.

گام پنجم: استفاده از مدل برای پیش‌بینی

اکنون که مدل آموزش‌دیده و ارزیابی‌شده‌ای داریم، می‌توانیم از آن برای پیش‌بینی قیمت روز بعد استفاده کنیم. برای این کار، از PredictionEngine استفاده می‌کنیم.

// ایجاد PredictionEngine
var predictionEngine = mlContext.Model.CreatePredictionEngine(model);

// ایجاد یک نمونه داده جدید برای پیش‌بینی (داده‌های امروز با ویژگی‌های مهندسی شده)
var latestData = new StockDataInput
{
    Open = 150.0f,
    High = 152.5f,
    // ... سایر ویژگی‌ها را بر اساس داده‌های واقعی امروز پر کنید
    MovingAverage14Days = 145.8f
};

// انجام پیش‌بینی
var prediction = predictionEngine.Predict(latestData);

Console.WriteLine($"Predicted close price for tomorrow: {prediction.PredictedClosePrice:C2}");

چالش‌ها و نکات مهم

عدم قطعیت بازار: بازار سهام تحت تأثیر اخبار، رویدادهای سیاسی و احساسات سرمایه‌گذاران است که در داده‌های تاریخی قیمت منعکس نمی‌شوند. هیچ مدلی نمی‌تواند این "قوهای سیاه" را پیش‌بینی کند.
بیش‌برازش (Overfitting): اگر مدل بیش از حد روی داده‌های آموزشی "حفظ" شود، در مواجهه با داده‌های جدید عملکرد ضعیفی خواهد داشت. استفاده از مجموعه تست و تکنیک‌هایی مانند Cross-Validation برای جلوگیری از این مشکل ضروری است.
سلب مسئولیت: این مقاله صرفاً جنبه آموزشی دارد. مدل‌های ساخته شده بر اساس این راهنما نباید به عنوان مبنایی برای تصمیم‌گیری‌های مالی واقعی استفاده شوند. سرمایه‌گذاری واقعی نیازمند مدیریت ریسک، تحلیل‌های گسترده‌تر و مشورت با متخصصان مالی است.

نتیجه‌گیری

استفاده از یادگیری ماشین در اکوسیستم .NET با ابزارهایی مانند ML.NET، دیگر یک رویای دور از دسترس نیست. همانطور که در این مقاله نشان داده شد، توسعه‌دهندگان .NET می‌توانند با تکیه بر دانش موجود خود و با دنبال کردن یک فرآیند ساختاریافته، مدل‌های پیش‌بینی پیچیده‌ای برای بازارهای مالی بسازند. کلید موفقیت در این مسیر، تمرکز بر کیفیت داده‌ها، مهندسی ویژگی‌های هوشمندانه و ارزیابی صادقانه عملکرد مدل است. دنیای مالی به سرعت در حال حرکت به سمت راه‌حل‌های الگوریتمی است و اکنون بهترین زمان برای توسعه‌دهندگان .NET است تا وارد این حوزه هیجان‌انگیز شوند.

لینک استاندارد شده: 7I6T4bEK0Q